Qu'est-ce que l'homonymie des sens des mots?
La désambiguïsation des sens des mots (WSD) est au cœur des logiciels conçus pour interpréter le langage. Les mots ou les phrases ambigus peuvent être compris de différentes manières, même si un seul sens est voulu. Dis ambiguation cherche à déchiffrer le sens voulu des mots et des phrases. Ce domaine est extrêmement difficile pour les programmeurs chargés de concevoir des interfaces précises pour combler le fossé entre le langage parlé et écrit et les traductions générées par ordinateur.
Un logiciel conçu pour convertir parole en texte peut «écouter» un utilisateur qui parle dans un microphone et traduire des mots parlés en phrases dactylographiées. L'utilisateur dicte la ponctuation, interposant des mots tels que «virgule» et «point», le cas échéant. Cela semble assez simple, sauf que beaucoup de mots se ressemblent exactement.
Par exemple, sais et no ou moi et oeil sont phoniquement indiscernables. La désambiguïsation des mots aide à traduire correctement «Je devrais le savoir la semaine prochaine» en utilisant ce qui est fondamentalement un ensemble de règles «si, alors» qui prennent en compte l’emplacement des mots et les mots adjacents comme indicateurs du mot voulu. Ce type de désambiguïsation des mots est appelé «approche superficielle» et est assez précis, mais on ne peut pas toujours compter dessus.
Une autre approche consiste à appliquer la «connaissance du monde» ou ce que la linguistique informatique appelle «approche profonde». Cette approche s'appuie sur des lexiques tels que les dictionnaires et les thésaurus pour aider à déterminer le sens propre d'un mot. Malheureusement, la conception d'une base de données d'approche approfondie suffisamment complète pour fournir une précision supérieure à l'approche superficielle n'est pas une tâche facile.
Un logiciel qui lit le texte à voix haute (synthèse vocale) nécessite également la désambiguïsation du sens des mots. Le mot basse , par exemple, pourrait signifier un instrument de musique, une note ou un poisson. Dans ce dernier cas, il est prononcé différemment, laissant à WSD le soin de déterminer quelle prononciation utiliser. Si la phrase tapée est "La basse est lourde", seul un balayage des phrases environnantes peut révéler des indices, tels que trouver les mots "pêche", "bateau", "dock" ou inversement, "groupe", musique »ou« chanson ». Si le sens des mots du programme n'est pas assez robuste, ou si des indices supplémentaires sont absents, le programme peut commettre des erreurs de traduction.
En plus des règles «si, alors» de l'approche superficielle, des algorithmes sont également utilisés pour déterminer les interprétations correctes. Dans l'exemple ci-dessus, un algorithme peut trouver dans le document des mots clés qui indiquent clairement une interprétation musicale, ou inversement. D'autres approches sont également utilisées dans WSD, qui sont essentiellement des améliorations ou des extensions de ces approches de base.
La désambiguïsation des mots est également essentielle dans les interfaces de commande verbale conçues pour remplacer le clavier - pas seulement pour relayer des commandes simples du système d’exploitation, mais pour des tâches aussi complexes que la recherche sur le Web. Le développement du Web sémantique et l'amélioration des modèles d'intelligence artificielle sont d'autres domaines dans lesquels WSD joue un rôle. En effet, tout domaine de la science qui repose sur un pont linguistique entre l'homme et la machine utilisera la désambiguïsation du sens des mots.