Was sind die unterschiedlichen Spracherkennungstechniken?

Mehrere Spracherkennungstechniken werden verwendet, um gesprochene Wörter zu erfassen und sie in Daten umzuwandeln, die von einem Softwareprogramm verwendet werden können. Es gibt drei umfassende Möglichkeiten, die Sprache zu analysieren, um festzustellen, was gesagt wird. Die erste wird als diskrete Sprache bezeichnet, was bedeutet, dass jeweils nur ein einziges Wort gesprochen wird. Die zweite wird als vernetzte Sprache bezeichnet, und Wörter müssen auf eine bestimmte Weise gesprochen werden, um verstanden zu werden. Schließlich gibt es eine kontinuierliche Sprache, wie die meisten Menschen normalerweise sprechen.

Der häufigste Algorithmus, der für alle Arten von Spracherkennungstechniken verwendet wird, ist das Hidden Markov -Modell (HMM). Dieses System umfasst große Datenbäume von Phonemen oder grundlegende Klänge und Silben, die durch die statistische Wahrscheinlichkeit eines Klangs nach einem anderen geteilt werden. Durch Vergleich jedes PhonemMit einigen Spracherkennungstechniken isoliert, wo ein Wort beginnt und endet. Diese Aufgabe wird durch Hintergrundgeräusche im Raum und die Tatsache, dass einige Silben eine Audiosignatur haben, die einer Pause zwischen den Wörtern ähnelt. Aus diesem Grund sind diskrete und vernetzte Spracherkennungstechniken die genauesten.

Ein weiterer Faktor, der verschiedene Spracherkennungstechniken trennt, ist das Problem des Software -Vokabulars. Software, die die Sprache interpretiert, kann entweder ein sehr begrenztes Vokabular mit hoher Genauigkeit oder ein großes Wortschatz haben, das auf die individuellen Sprachmuster eines bestimmten Benutzers übereinstimmt. Wenn ein Programm die HMM -Methode zum Zusammenstellen von Wörtern verwendet, kann das Programm umso genauer sein. Dies ist die Methode, mit der die meisten automatisierten Telefonsysteme Zahlen oder Antworten auf Fragen entschlüsseln.

SprachrecoGnu -Techniken, die ein großes Vokabular verstehen, sind normalerweise so konzipiert, dass sie mit sehr wenigen oder nur einem Benutzer interagieren. Dies liegt daran, dass das Programm geschult werden muss, um die Sprachmuster der Person zu verstehen. Das Training beinhaltet das Lesen von vorgefertigten Textabsätzen an die Software. Die Wörter, die gelesen werden, sind bekannt, sodass das Programm ein statistisches Modell von Phonemen erstellen kann, die für den Benutzer spezifisch sind. Dies gibt dem Programm eine viel bessere Chance, den Benutzer zu verstehen, aber es könnte auch das Verständnis des Programms für Menschen behindern, mit denen es nicht trainiert hat.

Die schwierigste der Spracherkennungstechniken ist die Interpretation der kontinuierlichen oder natürlichen Sprache. Viele Menschen neigen dazu, Wörter zusammenzuführen und mit unterschiedlichen Geschwindigkeiten zu sprechen, so dass die Genauigkeit von Programmen, die kontinuierliche Sprache übersetzen, niedriger ist als die der anderen Methoden. Es gibt jedoch Programme, die diese Art von Sprache übersetzen können, von denen einige mit Fuzzy -Logik und neuronalen Netzwerken verwendet werden, um Pat zu erkennenTerns und Isolieren von Wörtern.

ANDERE SPRACHEN

War dieser Artikel hilfreich? Danke für die Rückmeldung Danke für die Rückmeldung

Wie können wir helfen? Wie können wir helfen?