Was ist Spracherkennung?

Die Spracherkennung kann sich auf eine von zwei Arten der Informatik beziehen: die forensische Spracherkennung oder die Spracherkennung in Textform. Dieser Artikel befasst sich mit der letztgenannten Definition.

Spracherkennung oder in diesem Fall Spracherkennung ist eine Computertechnologie, die die Audioeingabe zur Eingabe von Daten anstelle einer Tastatur verwendet. Wenn Sie beispielsweise in ein Mikrofon sprechen, erhalten Sie dasselbe Ergebnis, als würden Sie Wörter manuell über eine Tastatur eingeben. Einfach ausgedrückt, Spracherkennungssoftware wurde mit einer internen Datenbank erkennbarer Wörter oder Phrasen entwickelt. Das Programm vergleicht die Audiosignatur der Sprache mit entsprechenden Einträgen in der Datenbank.

Obwohl es sich einfach anhört, Sprache in Text zu verwandeln, ist es eine äußerst schwierige Aufgabe. Das Problem liegt in der nahezu unbegrenzten Anzahl von individuellen Sprachmustern und Akzenten, die durch die natürliche menschliche Tendenz, Wörter zusammenzuführen, verstärkt werden.

Ein T-Shirt, das von Apple-Forschern entworfen wurde, veranschaulicht die Herausforderungen, die Spracherkennungssoftware mit sich bringt. Das Shirt liest, "ich half Apple, einen netten Strand zu ruinieren." Laut gesprochen klingt es so, als hätte ich Apple dabei geholfen, die Sprache zu erkennen.

Verschiedene Modelle von Spracherkennungssoftware werden für eine Reihe von Anwendungen verwendet, vom persönlichen Diktat bis zur kommerziellen automatisierten Anrufweiterleitung, von der Unterstützung von Behinderten bis zur Untertitelung von Sport- und Nachrichtenereignissen. Jedes Modell verhält sich anders und hat seine eigenen Fähigkeiten und Grenzen.

Spracherkennungsprogramme, bei denen der Benutzer die Software "trainieren" muss, um ihre speziellen stilisierten Sprachmuster zu erkennen, werden als sprecherabhängige Systeme bezeichnet. Normalerweise verwenden Personen diese Art von Programmen zu Hause oder im Büro. E-Mails, Memos, Briefe, Daten und Text können durch Sprechen in ein Mikrofon eingegeben werden.

Einige Spracherkennungssysteme, die als diskrete Sprachsysteme bezeichnet werden, erfordern, dass der Benutzer klar und langsam spricht und Wörter trennt. Kontinuierliche Sprachsysteme sind darauf ausgelegt, eine natürlichere Sprechweise zu verstehen.

Diskrete Spracherkennungssysteme werden häufig für das Routing des Kundendienstes verwendet. Das System ist sprecherunabhängig , versteht jedoch nur einen kleinen Pool von Wörtern oder Phrasen. Der Anrufer hat die Wahl, eine Frage zu beantworten, normalerweise mit "Ja" oder "Nein". Nach dem Empfang einer Antwort eskaliert das System den Anrufer zur nächsten Ebene. Wenn der Anrufer mit einer eindeutigen Antwort antwortet, lautet die automatische Antwort in der Regel "Entschuldigung, ich habe Sie nicht verstanden. Bitte versuchen Sie es noch einmal", wobei die Frage und die verfügbaren Antworten wiederholt werden. Diese Art der Spracherkennung wird auch als grammatikalische Erkennung bezeichnet.

Kontinuierliche Sprache ist eine komplexere Form der Spracherkennungssoftware, bei der der Anrufer auf natürliche Weise sprechen kann, um ein Problem zu erklären oder einen Dienst anzufordern. Dieses Programm wurde entwickelt, um Schlüsselwörter oder -phrasen herauszusuchen und statistisch zu erraten, was der Kunde möchte. Durch einfaches Sprechen wird die Spracherkennung beim Erkennen des Bedarfs unterstützt. Diese Art von System verfügt über eine weitaus intensivere Datenbank als diskrete Sprachsysteme und wird auch als Erkennung natürlicher Sprache bezeichnet.

Automatic Speech Recognition (ASR) ist ein Spracherkennungsmodell für Diktate. Diese Software unterscheidet sich von früheren Modellen dadurch, dass sie nicht danach strebt, das Gesagte zu verstehen, sondern nur die gesprochenen Wörter zu identifizieren. Da viele Wörter in der englischen Sprache gleich klingen, können leicht Fehler gemacht werden. Große Unternehmen wie Microsoft investieren jedoch in die Spracherkennung, und Bill Gates 'Prognose sieht vor, dass ASR bis zum Jahr 2011 die kontinuierliche Sprache versteht. ASR-Software ist häufig auf digitalen Sprachaufzeichnungsgeräten zu finden.

Die wichtigsten Anbieter von Spracherkennungssoftware waren ScanSoft und Nuance, wobei das erstere Unternehmen das letztere erwarb. Zu den kleineren Unternehmen zählen unter anderem Fonix Speech, Aculab und Verbio. Auch große Unternehmen wie IBM und das oben genannte Microsoft investieren in die Technologie. Obwohl viele immer noch der Meinung sind, dass es schwieriger ist, Software zu trainieren und Fehler zu korrigieren, als einfach eine Tastatur zu verwenden, wird die Zeit kommen, in der Spracherkennungssoftware diese Lücke wahrscheinlich schließen wird. Das Erweitern von Tastaturen mit der Fähigkeit, Sprache zu verwenden, wird wahrscheinlich an der Tagesordnung sein.

Spracherkennungssoftware wird immer beliebter, je ausgefeilter sie wird. Es ist besonders nützlich in Unternehmen, in denen es einen Live-Operator ersetzen kann, um Anrufe zu leiten, Informationen zu verbreiten, Bestellungen entgegenzunehmen und andere äußerst nützliche Funktionen auszuführen. Es gewinnt jedoch auch als Desktop-Anwendung an Beliebtheit , die von renommierter Software wie ScanSoft, DragonNaturallySpeaking und IBMs ViaVoice unterstützt wird .

Was ist Spracherkennung?

War dieser Artikel hilfreich?