Vad är röstigenkänning?
Röstigenkänning kan hänvisa till en av två typer av datavetenskap: rättsmedicinsk röstidentifiering eller tal-till-text-kapacitet. Den här artikeln behandlar den senare definitionen.
Röstigenkänning eller taligenkänning i detta fall är en datorteknologi som använder ljudingång för att mata in data snarare än ett tangentbord. Att tala till exempel om en mikrofon ger samma resultat som att skriva ord manuellt med ett tangentbord. Enkelt sagt är röstigenkänningsprogramvara utformad med en intern databas med igenkännliga ord eller fraser. Programmet matchar ljudsignaturen för talet med motsvarande poster i databasen.
Även om det kan låta enkelt att förvandla tal till text är det en extremt svår uppgift. Problemet ligger i det praktiskt taget oändliga utbudet av individuella talmönster och accenter, förvärrat av den naturliga mänskliga tendensen att föra ord tillsammans.
En illustration av de inneboende utmaningarna med röstigenkänningsprogramvara visas på en T-shirt skapad av Apple-forskare. Tröjan står: "Jag hjälpte Apple att förstöra en fin strand." När jag talade högt låter det som om jag hjälpte Apple att känna igen talet.
Olika modeller av röstigenkänningsprogramvara används för en mängd applikationer, från personlig diktation till kommersiell automatiserad samtal dirigering, från att hjälpa funktionshindrade till sport och textning av nyheter evenemang. Varje modell beter sig annorlunda och har sina egna förmågor och gränser.
Röstigenkänningsprogram som kräver att användaren "tränar" programvaran för att känna igen sina specifika stiliserade talmönster kallas högtalarberoende system. Individer använder ofta dessa typer av program hemma eller på kontoret. E-post, memo, brev, data och text kan matas in genom att prata i en mikrofon.
Vissa röstigenkänningssystem, kallade diskreta talsystem , kräver att användaren talar tydligt och långsamt och att skilja ord. Kontinuerliga talsystem är utformade för att förstå ett mer naturligt sätt att tala.
Diskreta röstigenkänningssystem används i stor utsträckning för routing av kundservice. Systemet är högtalaroberoende , men förstår bara en liten pool av ord eller fraser. Den som ringer får valet att svara på en fråga, vanligtvis med "ja" eller "nej." Efter att ha fått ett svar eskalerar systemet den som ringer till nästa nivå. Om den som ringer svarar med ett unikt svar är det automatiska svaret vanligtvis "Tyvärr, jag förstod inte dig; försök igen", med en upprepning av frågan och tillgängliga svar. Denna typ av röstigenkänning kallas också grammatisk begränsad igenkänning.
Kontinuerligt tal är en mer sofistikerad form av röstigenkänningsprogramvara, där den som ringer kan tala naturligt för att förklara ett problem eller begära en tjänst. Detta program är utformat för att välja ut nyckelord eller fraser och göra en statistisk bästa gissa vad kunden vill ha. Att prata hjälper helt enkelt röstigenkänning när det gäller att identifiera behovet. Denna typ av system har en mycket mer intensiv databas än diskret talsystem och kallas också för naturligt språkigenkänning.
Automatisk taligenkänning (ASR) är en modell för röstigenkänning utformad för diktering. Den här programvaran skiljer sig från tidigare modeller genom att den inte strävar efter att förstå vad som sägs, bara för att identifiera de ord som talas. Eftersom många ord på engelska låter lika gör man lätt misstag. Emellertid investerar stora företag som Microsoft i röstigenkänning, och Bill Gates egen förutsägelse har ASR som förstår kontinuerligt tal vid år 2011. ASR-programvara finns ofta på digitala röstinspelare.
Dominerande spelare inom röstigenkänningsprogramvara har varit ScanSoft och Nuance, där det tidigare företaget förvärvar det senare. Mindre spelare inkluderar bland annat Fonix Speech, Aculab och Verbio, med stora företag som IBM och ovannämnda Microsoft investerar också i tekniken. Även om många fortfarande känner att det är mer besvär att träna programvara och korrigera misstag än att helt enkelt använda ett tangentbord, kommer en tid när röstigenkänningsprogramvaran troligen kommer att stänga detta gap. Förstärkning av tangentbord med den diskriminerande förmågan att använda tal kommer troligen att bli vanliga.
Programvara för röstigenkänning får popularitet när det blir mer sofistikerat. Det är särskilt användbart i affärer där det kan ersätta en liveoperatör för att tratta samtal, sprida information, ta order och utföra andra mycket användbara funktioner. Men det är också att vinna fördel som en stationär applikation, med hjälp av känd programvara som ScanSofts, DragonNaturallySpeaking och IBMs ViaVoice .