Hva er stemmegjenkjenning?
Stemmegjenkjenning kan referere til en av to typer datavitenskap: rettsmedisinsk taleidentifikasjon eller tale-til-tekst evne. Denne artikkelen tar for seg sistnevnte definisjon.
Stemmegjenkjenning, eller talegjenkjenning i dette tilfellet, er en datateknologi som bruker lydinngang for å legge inn data i stedet for et tastatur. Å snakke med en mikrofon gir for eksempel samme resultat som å skrive ord manuelt med et tastatur. Enkelt sagt er stemmegjenkjenningsprogramvare designet med en intern database med gjenkjennelige ord eller uttrykk. Programmet matcher lydsignaturen til talen med tilsvarende oppføringer i databasen.
Selv om det kan høres enkelt ut å snakke tale til tekst, er det en ekstremt vanskelig oppgave. Problemet ligger i den tilnærmet uendelige rekke individuelle talemønstre og aksenter, forsterket av den naturlige menneskelige tendensen til å føre ord sammen.
En illustrasjon av de iboende utfordringene med stemmegjenkjenningsprogramvare vises på en T-skjorte laget av Apple-forskere. Skjorten lyder: "Jeg hjalp Apple å vrake en fin strand." Når jeg snakkes høyt, høres det ut som, jeg hjalp Apple til å gjenkjenne talen.
Ulike modeller for programvare for stemmegjenkjenning brukes til en rekke applikasjoner, fra personlig diktat til kommersiell automatisert samtaleutveksling, fra å hjelpe funksjonshemmede til undertekst på sport og nyheter. Hver modell oppfører seg annerledes og har sine egne evner og grenser.
Stemmegjenkjenningsprogrammer som krever at brukeren skal "trene" programvaren for å gjenkjenne sine spesielle stiliserte talemønstre kalles høyttaleravhengige systemer. Enkeltpersoner bruker ofte disse typer programmer hjemme eller på kontoret. E-post, notater, bokstaver, data og tekst kan skrives inn ved å snakke inn i en mikrofon.
Noen stemmegjenkjenningssystemer, kalt diskrete talesystemer , krever at brukeren snakker tydelig og sakte og for å skille ord. Kontinuerlige talesystemer er designet for å forstå en mer naturlig måte å snakke på.
Diskrete talegjenkjenningssystemer er mye brukt for ruting av kundeservice. Systemet er høyttaleruavhengig , men forstår bare et lite basseng med ord eller uttrykk. Den som ringer får et valg om å svare på et spørsmål, vanligvis med "ja" eller "nei." Etter å ha mottatt et svar, eskalerer systemet den som ringer til neste nivå. Hvis den som ringer svarer med et unikt svar, er det automatiserte svaret vanligvis: "Beklager, jeg forsto ikke deg; prøv igjen", med en gjenta spørsmålet og tilgjengelige svar. Denne typen stemmegjenkjenning blir også referert til som grammatisk begrenset gjenkjennelse.
Kontinuerlig tale er en mer sofistikert form for programvare for stemmegjenkjenning, der den som ringer kan snakke naturlig for å forklare et problem eller be om en tjeneste. Dette programmet er designet for å plukke ut stikkord eller uttrykk og lage et statistisk beste gjetning om hva kunden ønsker. Å snakke tydelig hjelper stemmegjenkjenning ved å identifisere behovet. Denne typen systemer har en langt mer intensiv database enn diskrete talesystemer og blir også referert til som naturlig språkgjenkjenning.
Automatic Speech Recognition (ASR) er en modell for stemmegjenkjenning designet for diktering. Denne programvaren skiller seg fra tidligere modeller ved at den ikke prøver å forstå hva som blir sagt, bare for å identifisere ordene som er talt. Siden mange ord på engelsk høres likt ut, blir det lett gjort feil. Imidlertid investerer store selskaper som Microsoft i stemmegjenkjenning, og Bill Gates 'egen prediksjon har ASR som forstår kontinuerlig tale innen året 2011. ASR-programvare er ofte å finne på digitale stemmeopptakere.
Dominerende aktører innen stemmegjenkjenningsprogramvare har vært ScanSoft og Nuance, hvor det tidligere selskapet kjøpte det siste. Mindre aktører inkluderer blant annet Fonix Speech, Aculab og Verbio, med store selskaper som IBM og den nevnte Microsoft som også investerer i teknologien. Selv om mange fremdeles føler at det er mer problemer å trene programvare og rette feil enn å bare bruke et tastatur, kommer det en tid hvor programvare for stemmegjenkjenning sannsynligvis vil lukke dette gapet. Forsterkning av tastaturer med den diskriminerende evnen til å bruke tale vil sannsynligvis bli vanlig.
Programvare for stemmegjenkjenning blir stadig mer populært etter hvert som det blir mer sofistikert. Det er spesielt nyttig i virksomheten der den kan erstatte en live operatør for å trakte samtaler, spre informasjon, ta ordre og utføre andre svært nyttige funksjoner. Imidlertid er det også å oppnå fordel som en desktop-applikasjon, hjulpet med av kjent programvare som ScanSofts, DragonNaturallySpeaking og IBMs ViaVoice .