Qu'est-ce que la transcription automatique?
La transcription automatique est le processus de production d'une transcription écrite d'un discours parlé ou enregistré au moyen d'ordinateurs et sans intervention humaine directe. Une transcription automatique précise nécessite un logiciel de transcription de haute qualité et un appareil capable de recevoir avec précision les données auditives. En général, il est également nécessaire que la parole ou l'enregistrement à transcrire soit raisonnablement exempt de distorsion et d'interférences dues au bruit de fond. Des tentatives ont également été faites pour transcrire de la musique en utilisant des ordinateurs exécutant des logiciels de transcription spécialisés. La transcription musicale consiste à écrire les notes d'un morceau de musique, en particulier lorsqu'il n'existe pas de notation préexistante pour cette musique, comme c'est le cas avec les solos improvisés.
Un bon logiciel de transcription est nécessaire au succès de la transcription automatique. Le logiciel est responsable du traitement de l'entrée auditive, de la séparation d'un flux de langue continu en mots séparés, de la reconnaissance de ces mots et de leur représentation correcte dans le texte. Un échec à n'importe quelle étape de ce processus aboutit généralement à une transcription qui diffère quelque peu du matériel source. Un bon logiciel de transcription automatique devrait être capable de reconnaître les différences subtiles entre des mots similaires et de compenser les différents styles et vitesses de parole. Les accents difficiles à comprendre ont tendance à être problématiques, même pour le meilleur logiciel de transcription.
Certaines personnes utilisent un logiciel de transcription automatique car elles préfèrent la dictée à la saisie ou à la rédaction directe de leur texte. Certaines formes de logiciels de transcription automatique sont particulièrement utiles à cette fin, car elles peuvent "apprendre" la voix des personnes dont elles transcrivent les mots. Dans de tels cas, la transcription automatique n'est pas utilisée pour créer des transcriptions de parole à partir de sources différentes. Il n'est donc pas nécessaire que le logiciel soit ouvert à une grande variété de modèles de parole. Autoriser ce processus d'optimisation, qui peut survenir lors d'une utilisation étendue du logiciel par une personne ou lors d'un étalonnage préliminaire, peut augmenter considérablement la précision et la vitesse potentielle de la dictée.
Malheureusement, les ordinateurs ne sont pas aussi bien adaptés que les humains pour reconnaître de manière cohérente et précise le langage humain. Par exemple, ils ne peuvent pas utiliser d'indices contextuels s'ils ne comprennent pas un mot particulier. En tant que tel, il est souvent nécessaire pour un humain de relire les transcriptions créées par transcription automatique. Des erreurs mineures de formatage et diverses erreurs de transcription sont, dans de nombreux cas, courantes si le discours transcrit n'est pas très clair. Néanmoins, l'utilisation de la transcription informatisée peut rapidement constituer une base solide pour une transcription qui ne nécessite qu'une intervention humaine limitée avant d'être soumise ou utilisée.