Wat zijn de verschillende technieken voor spraakherkenning?

Verschillende technieken voor spraakherkenning worden gebruikt om gesproken woorden vast te leggen en om te zetten in gegevens die door een softwareprogramma kunnen worden gebruikt. Er zijn drie brede manieren om spraak te analyseren in een poging te bepalen wat er wordt gezegd. De eerste wordt discrete spraak genoemd, wat betekent dat slechts één woord tegelijk wordt gesproken. De tweede staat bekend als verbonden spraak en woorden moeten op een bepaalde manier worden gesproken om te worden begrepen. Ten slotte is er continue spraak, dat is hoe de meeste mensen normaal gesproken spreken.

Het meest voorkomende algoritme dat wordt gebruikt voor alle soorten spraakherkenningstechnieken is het Hidden Markov -model (HMM). Dit systeem omvat grote gegevensbomen van fonemen, of basisgeluiden en lettergrepen, die worden gedeeld door de statistische waarschijnlijkheid van het ene geluid na een ander. Door elk foneem te vergelijken met een knooppunt in de gegevensboom van geluiden, kan het werkelijke voltooide woord in een relatief korte periode met een hoge nauwkeurigheid worden bepaald.

Een probleem dat moeilijk te ove isRome met sommige spraakherkenningstechnieken isoleert waar een woord begint en eindigt. Deze taak wordt gecompliceerd door achtergrondruis in de kamer en het feit dat sommige lettergrepen een audiosignatuur hebben die lijkt op een pauze tussen woorden. Om deze reden zijn discrete en verbonden spraakherkenningstechnieken het meest nauwkeurig.

Een andere factor die verschillende technieken voor spraakherkenning scheidt, is de kwestie van software -woordenschat. Software die spraak interpreteert, kan een zeer beperkte vocabulaire hebben met een hoge nauwkeurigheid, of een grote vocabulaire die moet worden gekoppeld aan de individuele spraakpatronen van een specifieke gebruiker. Wanneer een programma de HMM -methode gebruikt om woorden samen te stellen, hoe minder het aantal woorden dat wordt begrepen, hoe nauwkeuriger het programma kan zijn. Dit is de methode die de meeste geautomatiseerde telefoonsystemen gebruiken om nummers of antwoorden op vragen te ontcijferen.

spraakrecoGnition -technieken die een grote woordenschat begrijpen, zijn meestal ontworpen om te communiceren met zeer weinig of slechts één gebruiker. Dit komt omdat het programma moet worden getraind om de spraakpatronen van de persoon te begrijpen. De training omvat het lezen van vooraf gemaakte paragrafen van tekst aan de software. De woorden die worden gelezen, zijn bekend, dus het programma kan een statistisch model van fonemen bouwen die specifiek zijn voor de gebruiker. Dit geeft het programma een veel betere kans om de gebruiker te begrijpen, maar het kan ook het begrip van het programma belemmeren over mensen met wie het niet is getraind.

De moeilijkste technieken voor spraakherkenning zijn het interpreteren van continue of natuurlijke spraak. Veel mensen hebben de neiging om woorden samen te runnen en met verschillende snelheden te spreken, dus de nauwkeurigheid van programma's die continue spraak vertalen is lager dan die van de andere methoden. Toch bestaan er programma's die dit soort spraak kunnen vertalen, sommigen van hen die fuzzy logic en neurale netwerken gebruiken om Pat te helpen herkennenterns en isoleer woorden.

Wat zijn de verschillende technieken voor spraakherkenning?

ANDERE TALEN