Was sind die verschiedenen Spracherkennungstechniken?
Verschiedene Spracherkennungstechniken werden verwendet, um gesprochene Wörter zu erfassen und in Daten umzuwandeln, die von einem Softwareprogramm verwendet werden können. Es gibt drei Möglichkeiten, die Sprache zu analysieren, um festzustellen, was gesagt wird. Die erste heißt diskrete Sprache, dh es wird immer nur ein Wort gesprochen. Die zweite ist als verbundene Sprache bekannt, und Wörter müssen auf eine bestimmte Weise gesprochen werden, um verstanden zu werden. Schließlich gibt es eine kontinuierliche Sprache, wie die meisten Menschen normalerweise sprechen.
Der am häufigsten verwendete Algorithmus für alle Arten von Spracherkennungstechniken ist das Hidden-Markov-Modell (HMM). Bei diesem System handelt es sich um große Datenbäume von Phonemen oder Grundtönen und Silben, die durch die statistische Wahrscheinlichkeit eines Tons nach dem anderen geteilt werden. Durch Vergleichen jedes Phonems mit einem Knoten in dem Datenbaum von Tönen kann das tatsächlich vervollständigte Wort mit einer hohen Genauigkeitsrate in einer relativ kurzen Zeitperiode bestimmt werden.
Ein Problem, das mit einigen Spracherkennungstechniken schwer zu überwinden ist, besteht darin, zu isolieren, wo ein Wort beginnt und endet. Diese Aufgabe wird durch Hintergrundgeräusche im Raum und die Tatsache erschwert, dass einige Silben eine Audiosignatur haben, die einer Pause zwischen Wörtern ähnelt. Aus diesem Grund sind diskrete und verbundene Spracherkennungstechniken am genauesten.
Ein weiterer Faktor, der verschiedene Spracherkennungstechniken voneinander trennt, ist das Problem des Softwarevokabulars. Software, die Sprache interpretiert, kann entweder ein sehr begrenztes Vokabular mit hoher Genauigkeit oder ein großes Vokabular haben, das an die individuellen Sprachmuster eines bestimmten Benutzers angepasst werden muss. Wenn ein Programm die HMM-Methode zum Zusammenstellen von Wörtern verwendet, kann das Programm umso genauer sein, je weniger Wörter verstanden werden. Dies ist die Methode, mit der die meisten automatisierten Telefonsysteme Nummern oder Antworten auf Fragen entschlüsseln.
Spracherkennungstechniken, die ein großes Vokabular verstehen, sind normalerweise für die Interaktion mit sehr wenigen oder nur einem Benutzer konzipiert. Dies liegt daran, dass das Programm trainiert werden muss, um die Sprachmuster der sprechenden Person zu verstehen. Die Schulung beinhaltet das Lesen von vorgefertigten Textabschnitten in der Software. Die gelesenen Wörter sind bekannt, so dass das Programm ein statistisches Modell von benutzerspezifischen Phonemen erstellen kann. Dies gibt dem Programm eine viel bessere Chance, den Benutzer zu verstehen, kann jedoch auch das Verständnis des Programms für Personen beeinträchtigen, mit denen es nicht trainiert hat.
Die schwierigste der Spracherkennungstechniken ist die Interpretation von kontinuierlicher oder natürlicher Sprache. Viele Menschen neigen dazu, Wörter zusammen zu führen und mit unterschiedlicher Geschwindigkeit zu sprechen. Daher ist die Genauigkeit von Programmen, die fortlaufende Sprache übersetzen, geringer als die der anderen Methoden. Es gibt jedoch Programme, die diese Art von Sprache übersetzen können. Einige von ihnen verwenden Fuzzy-Logik und neuronale Netze, um Muster zu erkennen und Wörter zu isolieren.