Wat zijn de verschillende technieken voor spraakherkenning?
Verschillende spraakherkenningstechnieken worden gebruikt om gesproken woorden vast te leggen en om te zetten in gegevens die door een softwareprogramma kunnen worden gebruikt. Er zijn drie brede manieren om spraak te analyseren in een poging om te bepalen wat er wordt gezegd. De eerste heet discrete spraak, wat betekent dat er slechts één woord tegelijk wordt gesproken. De tweede staat bekend als verbonden spraak en woorden moeten op een bepaalde manier worden uitgesproken om te worden begrepen. Ten slotte is er continue spraak, zoals de meeste mensen normaal gesproken spreken.
Het meest gebruikte algoritme voor alle soorten technieken voor spraakherkenning is het Hidden Markov-model (HMM). Dit systeem omvat grote gegevensbomen van fonemen, of basisgeluiden en lettergrepen, die worden gedeeld door de statistische waarschijnlijkheid dat het ene geluid het andere volgt. Door elk foneem te vergelijken met een knooppunt in de gegevensboom van geluiden, kan het werkelijke voltooide woord met een hoge nauwkeurigheid in een relatief korte tijdsperiode worden bepaald.
Een probleem dat met sommige spraakherkenningstechnieken moeilijk te overwinnen is, is isoleren waar een woord begint en eindigt. Deze taak wordt gecompliceerd door achtergrondgeluid in de kamer en het feit dat sommige lettergrepen een audiosignatuur hebben die lijkt op een pauze tussen woorden. Om deze reden zijn discrete en verbonden spraakherkenningstechnieken het meest nauwkeurig.
Een andere factor die verschillende spraakherkenningstechnieken scheidt, is de kwestie van softwarevocabulaire. Software die spraak interpreteert, kan een zeer beperkte vocabulaire hebben met een hoge nauwkeurigheid, of een grote vocabulaire die moet worden afgestemd op de individuele spraakpatronen van een specifieke gebruiker. Wanneer een programma de HMM-methode gebruikt voor het samenstellen van woorden, hoe minder woorden er worden begrepen, hoe nauwkeuriger het programma kan zijn. Dit is de methode die de meeste geautomatiseerde telefoonsystemen gebruiken om nummers of antwoorden op vragen te ontcijferen.
Spraakherkenningstechnieken die een groot vocabulaire begrijpen, zijn meestal ontworpen om met zeer weinig of slechts één gebruiker te communiceren. Dit komt omdat het programma moet worden getraind om de spraakpatronen van de spreker te begrijpen. De training omvat het lezen van vooraf gemaakte paragrafen tekst in de software. De woorden die worden gelezen zijn bekend, zodat het programma een statistisch model van fonemen kan bouwen die specifiek zijn voor de gebruiker. Dit geeft het programma een veel betere kans om de gebruiker te begrijpen, maar het kan ook het begrip van het programma belemmeren voor mensen met wie het niet heeft getraind.
De moeilijkste van de spraakherkenningstechnieken is het interpreteren van continue of natuurlijke spraak. Veel mensen hebben de neiging om samen woorden uit te voeren en op verschillende snelheden te spreken, dus de nauwkeurigheid van programma's die continue spraak vertalen is lager dan die van de andere methoden. Toch bestaan er programma's die dit type spraak kunnen vertalen, sommige gebruiken fuzzy logic en neurale netwerken om patronen te helpen herkennen en woorden te isoleren.