Vad är röstigenkänning?

Röstigenkänning kan hänvisa till en av två typer av datavetenskap: kriminalteknisk röstidentifiering eller tal-till-text-kapacitet. Den här artikeln behandlar den senare definitionen.

röstigenkänning eller taligenkänning i detta fall är en datateknik som använder ljudinmatning för att ange data snarare än ett tangentbord. Att tala till en mikrofon ger till exempel samma resultat som att skriva ord manuellt med ett tangentbord. Enkelt angiven är röstigenkänningsprogramvara utformad med en intern databas med igenkännbara ord eller fraser. Programmet matchar ljudsignaturen för tal med motsvarande poster i databasen.

Även om att förvandla tal till text kan låta enkelt, är det en extremt svår uppgift. Problemet ligger i den praktiskt taget oändliga uppsättningen av enskilda talmönster och accenter, förvärrade av den naturliga mänskliga tendensen att köra ord tillsammans.

En illustration av de inneboende utmaningarna med röstigenkänningsprogramvara visas på en T-shirt CreApple -forskare. Skjortan lyder: "Jag hjälpte Apple Wreck en trevlig strand." När det talas högt, låter det som, Jag hjälpte Apple att känna igen tal.

Olika modeller av röstigenkänningsprogramvara används för en rad applikationer, från personlig diktat till kommersiell automatiserad samtalsrutning, från att hjälpa till att funktionshindras till Sport och nyhetsevenemang. Varje modell uppför sig annorlunda och har sina egna kapaciteter och gränser.

röstigenkänningsprogram som kräver att användaren "tränar" programvaran för att känna igen deras speciella stiliserade talmönster kallas högtalarberoende system. Individer använder vanligtvis dessa typer av program hemma eller på kontoret. E -post, memos, bokstäver, data och text kan matas in genom att prata i en mikrofon.

Några röstigenkänningssystem, kallade diskreta tal system, kräver att användaren talar tydligt och slågt och för att separera ord. Kontinuerliga tal System är utformade för att förstå ett mer naturligt sätt att tala.

Diskreta talröstigenkänningssystem används allmänt för kundtjänst. Systemet är talare Independent , men förstår bara en liten pool av ord eller fraser. Den som ringer ges ett val att svara på en fråga, vanligtvis med "ja" eller "nej." Efter att ha fått ett svar eskalerar systemet den som ringer till nästa nivå. Om den som ringer svarar med ett unikt svar är det automatiserade svaret vanligtvis "Tyvärr, jag förstod dig inte; försök igen", med en upprepning av frågan och tillgängliga svar. Denna typ av röstigenkänning kallas också grammatikbegränsat erkännande.

Kontinuerligt tal är en mer sofistikerad form av röstigenkänningsprogramvara, där den som ringer kan tala naturligt för att förklara ett problem eller begära en tjänst. Detta program är utformat för att välja nyckelord eller fraser och göra en statIstical bäst gissa vad kunden vill ha. Att tala helt klart hjälper röstigenkänning vid att identifiera behovet. Denna typ av system har en mycket mer intensiv databas än diskreta talsystem och kallas också naturligt språkigenkänning.

Automatisk taligenkänning (ASR) är en modell för röstigenkänning utformad för diktat. Denna programvara skiljer sig från tidigare modeller genom att den inte strävar efter att förstå vad som sägs, bara för att identifiera de ord som talas. Eftersom många ord på engelska ljudet så görs misstag lätt. Men stora företag som Microsoft investerar i röstigenkänning, och Bill Gates egen förutsägelse har ASR -förståelse kontinuerligt tal år 2011. ASR -programvara finns ofta på digitala röstinspelare.

dominerande spelare inom röstigenkänningsprogramvara har varit Scansoft och Nuance, där det tidigare företaget förvärvar det senare. Mindre spelare inkluderar Fonix -tal, Aculab och Verbio, blandAndra, med stora företag som IBM och den ovannämnda Microsoft också investerar i tekniken. Även om många fortfarande känner att det är mer besvär att träna programvara och korrigera misstag än att helt enkelt använda ett tangentbord, kommer en tid när röstigenkänningsprogramvaran troligen kommer att stänga detta gap. Att förstärka tangentbordet med diskriminerande förmåga att använda tal kommer förmodligen att bli vanligt.

Programvara för röstigenkänning ökar populariteten när den blir mer sofistikerad. Det är särskilt användbart i affärer där det kan ersätta en liveoperatör till trattsamtal, sprida information, ta order och utföra andra mycket användbara funktioner. Det får emellertid också fördel som en skrivbordsapplikation, med hjälp av känd programvara som Scansoft's, Dragonnaturallyspeaking och IBM's viavoice .

Vad är röstigenkänning?

ANDRA SPRÅK

RELATERADE ARTIKLAR

Hur kan vi hjälpa?