Qu'est-ce que le traitement du langage naturel?
Le traitement du langage naturel (NLP) est un moyen de traduction entre les langages informatiques et les langages humains. Le but de ce champ est de permettre aux ordinateurs de comprendre ce qu’un texte dit sans recevoir de valeurs ni d’équations précises pour les données qu’il contient. En substance, le traitement du langage naturel automatise le processus de traduction entre les langages humain et informatique. Bien qu'une grande partie de ce domaine repose sur des statistiques et des modèles pour déterminer la signification probable d'une expression, il existe et a eu de nombreuses approches différentes de ce problème. Les résultats dans ce domaine ont des applications dans les domaines de la reconnaissance de la parole, de la traduction en langage humain, de la recherche d'informations, et même de l'intelligence artificielle.
S'appuyant sur des connaissances en informatique et en linguistique, le traitement du langage naturel se heurte à de nombreux problèmes, car le langage n'est pas toujours cohérent et tous les indices de signification ne sont pas contenus dans le langage lui-même. Même une description complète de la grammaire complète d'une langue, y compris toutes les exceptions, ne permet pas toujours à un ordinateur d'analyser les informations contenues dans un texte. Certaines phrases sont syntaxiquement ambiguës, les mots ont souvent plus d'un sens et certaines combinaisons de sons ou de symboles changent de signification en fonction des limites des mots, ce qui peut poser problème à un ordinateur qui ne comprend pas le contexte. Plus important encore, une grande partie du langage repose sur une connexion à l'univers physique et social: certaines phrases, telles que les actes de langage, ne véhiculent pas autant d'informations que d'agir sur le monde. Même si un ordinateur comprend parfaitement la syntaxe et la sémantique du langage humain, le texte à analyser doit être exempt de tout dispositif humain, tel que le sarcasme ou l'agression passive, pour que l'ordinateur puisse déterminer correctement ce que le texte signifie.
Idéologiquement, le traitement du langage naturel est un système d’interaction homme-machine qui repose sur l’idée que la plupart des utilisateurs d’ordinateurs sont plus à l’aise pour travailler avec des ordinateurs dans un langage qu’ils connaissent déjà que pour s’adapter à leur langage. Il tire également parti du fait qu'une grande partie des connaissances humaines est déjà codée dans un langage humain et que les textes qui contiennent ces connaissances peuvent être traduits en structures logiques pouvant être rationalisées pour un ordinateur. Tandis que de nombreux projets dans ce domaine travaillent à extraire des données lisibles par ordinateur à partir de textes en langage humain, le traitement en langage naturel est également utilisé pour générer des textes lisibles par l'homme à partir de données informatiques. Ces deux installations de compréhension et de génération peuvent être utilisées par la même technologie, comme dans le cas d'applications qui traduisent d'une langue humaine à une autre en décodant d'abord le texte dans une langue informatique, puis en l'encodant dans une autre langue humaine. Les innovations obtenues dans le traitement du langage naturel s’appliquent également de manière frappante aux projets d’intelligence artificielle en raison de la mesure dans laquelle une intelligence de type humain est définie par une maîtrise des complexités du langage humain.