Was ist ein Akustikmodell?
Ein akustisches Modell ist im Wesentlichen eine Karte der Stimme in Bezug auf eine Reihe gedruckter Wörter. Diese Technologie wird in Spracherkennungsprogrammen verwendet, um einem Computer zu helfen, die Sprachmuster einer Person zu erkennen. Ein akustisches Modell ist eine der beiden Hauptdateien, die zum Ausführen eines Spracherkennungsprogramms erforderlich sind. Das andere ist das Sprachmodell, das wahrscheinliche Wörter und Sprachmuster angibt, die vom Sprecher verwendet werden können. Diese Modelle werden erstellt, indem die Tondetails einer gesprochenen Audiodatei mit dem Text der gesprochenen Wörter verglichen werden.
Spracherkennungssoftware ist eine Software zum Erkennen und Transkribieren oder Reagieren auf die Wörter, die eine Person sagt. Viele Betriebssysteme verfügen über integrierte grundlegende Spracherkennungsfunktionen, die der Benutzer ein- und ausschalten kann. Spracherkennungsfunktionen auf Betriebssystemen geben dem Benutzer normalerweise die Möglichkeit, den Computer zu steuern und Wörter auf dem Bildschirm mit ihrer Stimme einzugeben.
Um auf Spracherkennungssoftware zuzugreifen, benötigt ein Benutzer ein Mikrofon, um seine Stimme an den Computer zu übertragen, sowie ein Programm, das den Ton verarbeitet. Während viele Computer über eingebaute Mikrofone verfügen, bietet ein externes Headset-Mikrofon dem Benutzer den Vorteil eines klareren Sprachsignals und die Freiheit, sich beim Sprechen im Raum zu bewegen. Zu den eigenständigen Marken für Spracherkennungssoftware gehören LumenVox®, Loquendo® und Dragon®.
Die meisten Spracherkennungsprogramme verfügen über eine akustische Modellprogrammierung, mit der das Programm Abweichungen in der Aussprache erkennen kann. Sie verwenden Muster im Klang der Stimme des Sprechers, um Wörter in der Sprache zu identifizieren. Viele sind mit einer Setup-Software ausgestattet, die dem Benutzer dabei hilft, ein akustisches Modell zu erstellen, mit dem er seine eigene Stimme interpretieren kann. Einige fortschrittliche Spracherkennungsprogramme können mehrere Sprachen identifizieren und interpretieren, oft mit einer winzigen Menge an Toninformationen. Je weiter fortgeschritten ein Spracherkennungsprogramm ist, desto wahrscheinlicher ist es, Wörter basierend auf ihrem Kontext genau zu interpretieren, einschließlich der Stelle, an der in einem Satz ein Wort gesprochen wird.
Das Fachgebiet, das die Spracherkennungstechnologie entwickelt, heißt Computerlinguistik. Computerlinguistik umfasst das Studieren und Entwerfen von Software, die zum Verstehen der menschlichen Sprache programmiert ist. Dieses Feld enthält häufig Informationen aus dem Studium der Psychologie, um akustische Modelle zu erstellen, mit denen Sprache genauer interpretiert werden kann.
Das Wort "akustisch" bezieht sich im Allgemeinen auf alles, was mit Klang zu tun hat. Akustische Modelle werden zwar am häufigsten für die Spracherkennung verwendet, können jedoch auch für die Musik verwendet werden. Ein akustisches Modell eines Musiktitels kann Eigenschaften wie Beats pro Minute, die Tonart oder dominante Tonhöhen in der Musik identifizieren. Diese Informationen können von einem Computerprogramm verwendet werden, um einen Musiktitel zu identifizieren, oder sie können verwendet werden, um das Genre, in das die Musik wahrscheinlich eingeteilt ist, lose zu bestimmen. Akustische Modelle werden auch in einem Forschungsgebiet namens Psychoakustik verwendet, in dem die Forscher lernen möchten, Musik zu strukturieren, die sich vorhersehbar auf das Gehirn auswirkt.