Wat is spraakherkenning?
Spraakherkenning kan verwijzen naar een van de twee typen informatica: forensische spraakherkenning of spraak-naar-tekst-mogelijkheden. Dit artikel gaat in op de laatste definitie.
Spraakherkenning, of spraakherkenning in dit geval, is een computertechnologie die audio-invoer gebruikt voor het invoeren van gegevens in plaats van een toetsenbord. Spreken in een microfoon levert bijvoorbeeld hetzelfde resultaat op als het handmatig typen van woorden met een toetsenbord. Simpel gezegd, spraakherkenningssoftware is ontworpen met een interne database van herkenbare woorden of zinnen. Het programma vergelijkt de audiosignatuur van spraak met overeenkomstige vermeldingen in de database.
Hoewel het omzetten van spraak in tekst misschien eenvoudig klinkt, is het een uiterst moeilijke taak. Het probleem ligt in de vrijwel oneindige reeks individuele spraakpatronen en accenten, verergerd door de natuurlijke neiging van de mens om woorden samen te laten lopen.
Een illustratie van de inherente uitdagingen van spraakherkenningssoftware verschijnt op een T-shirt gemaakt door Apple-onderzoekers. Het shirt luidt: "Ik heb Apple geholpen een mooi strand te verwoesten." Als ik hardop spreek , klinkt het alsof ik Apple heb geholpen spraak te herkennen.
Verschillende modellen van spraakherkenningssoftware worden gebruikt voor een scala aan toepassingen, van persoonlijk dicteren tot commerciële geautomatiseerde oproeproutering, van hulp aan gehandicapten tot ondertiteling van sport- en nieuwsevenementen. Elk model gedraagt zich anders en heeft zijn eigen mogelijkheden en grenzen.
Spraakherkenningsprogramma's waarbij de gebruiker de software moet 'trainen' om hun specifieke gestileerde spraakpatronen te herkennen, worden luidsprekerafhankelijke systemen genoemd. Individuen gebruiken dit soort programma's vaak thuis of op kantoor. E-mail, memo's, brieven, gegevens en tekst kunnen worden ingevoerd door in een microfoon te spreken.
Sommige spraakherkenningssystemen, discrete spraaksystemen genoemd , vereisen dat de gebruiker duidelijk en langzaam spreekt en woorden scheidt. Continue spraaksystemen zijn ontworpen om een meer natuurlijke manier van spreken te begrijpen.
Discrete spraakherkenningssystemen worden veel gebruikt voor klantenservice routing. Het systeem is luidsprekeronafhankelijk , maar begrijpt slechts een kleine verzameling woorden of zinnen. De beller krijgt de keuze om een vraag te beantwoorden, meestal met "ja" of "nee". Nadat een antwoord is ontvangen, escaleert het systeem de beller naar het volgende niveau. Als de beller antwoordt met een uniek antwoord, is het geautomatiseerde antwoord meestal "Sorry, ik begreep u niet; probeer het opnieuw" met een herhaling van de vraag en beschikbare antwoorden. Dit type spraakherkenning wordt ook wel grammaticale beperkte herkenning genoemd.
Continue spraak is een meer geavanceerde vorm van spraakherkenningssoftware, waarbij de beller op natuurlijke wijze kan spreken om een probleem uit te leggen of om een service te vragen. Dit programma is ontworpen om sleutelwoorden of woordgroepen te kiezen en een statistische beste schatting te maken van wat de klant wil. Eenvoudig spreken helpt spraakherkenning bij het identificeren van de behoefte. Dit type systeem heeft een veel intensievere database dan discrete spraaksystemen en wordt ook wel natuurlijke taalherkenning genoemd.
Automatische spraakherkenning (ASR) is een model van spraakherkenning ontworpen voor dicteren. Deze software verschilt van eerdere modellen doordat het niet ernaar streeft te begrijpen wat er wordt gezegd, alleen om de gesproken woorden te identificeren. Omdat veel woorden in de Engelse taal hetzelfde klinken, zijn fouten gemakkelijk gemaakt. Grote bedrijven zoals Microsoft investeren echter in spraakherkenning en Bill Gates 'eigen voorspelling heeft ASR begrip van continue spraak tegen het jaar 2011. ASR-software wordt vaak gevonden op digitale spraakrecorders.
Dominante spelers in spraakherkenningssoftware zijn ScanSoft en Nuance, waarbij het voormalige bedrijf het laatste overnam. Kleinere spelers zijn onder andere Fonix Speech, Aculab en Verbio, samen met grote bedrijven zoals IBM en het bovengenoemde Microsoft dat ook in de technologie investeert. Hoewel velen het nog steeds moeilijker vinden om software te trainen en fouten te corrigeren dan om gewoon een toetsenbord te gebruiken, komt er een tijd dat spraakherkenningssoftware waarschijnlijk die kloof zal dichten. Toetsenborden uitbreiden met het onderscheidend vermogen om spraak te gebruiken, zal waarschijnlijk gemeengoed worden.
Spraakherkenningssoftware wint aan populariteit naarmate het geavanceerder wordt. Het is vooral handig in bedrijven waar het een live-operator kan vervangen om oproepen te leiden, informatie te verspreiden, bestellingen aan te nemen en andere zeer nuttige functies uit te voeren. Het wordt echter ook steeds populairder als desktopapplicatie, geholpen door gerenommeerde software zoals ScanSoft's, DragonNaturallySpeaking en IBM's ViaVoice .