Hva er stemmegjenkjenning?
Stemmegjenkjenning kan referere til en av to typer informatikk: rettsmedisinske stemmeidentifikasjoner eller tale-til-tekst-evne. Denne artikkelen tar for seg sistnevnte definisjon.
Stemmegjenkjenning, eller talegjenkjenning i dette tilfellet, er en datateknologi som bruker lydinngang for å legge inn data i stedet for et tastatur. Å snakke inn i en mikrofon produserer for eksempel samme resultat som å skrive ord manuelt med et tastatur. Enkelt sagt, stemmegjenkjenningsprogramvare er designet med en intern database med gjenkjennelige ord eller uttrykk. Programmet samsvarer med lydsignaturen til tale med tilsvarende oppføringer i databasen.
Selv om det å gjøre tale til tekst kan høres enkelt ut, er det en ekstremt vanskelig oppgave. Problemet ligger i det tilnærmet uendelige utvalget av individuelle talemønstre og aksenter, forsterket av den naturlige menneskelige tendensen til å kjøre ord sammen.
En illustrasjon av de iboende utfordringene med stemmegjenkjenningsprogramvare vises på en t-skjorte CreApple forskere. Skjorten lyder: "Jeg hjalp Apple vrak en fin strand." Når det ble snakket høyt, høres det ut som, Jeg hjalp Apple til å gjenkjenne tale.
Ulike modeller av stemmegjenkjenningsprogramvare brukes til en rekke applikasjoner, fra personlig diktat til kommersiell automatisert samtalruting, fra å hjelpe funksjonshemmede til sports- og nyhetsarrangement som undertegner. Hver modell oppfører seg annerledes og har sine egne evner og grenser.
stemmegjenkjenningsprogrammer som krever at brukeren "trene" programvaren for å gjenkjenne sine spesielle stiliserte talemønstre kalles høyttaleravhengige systemer. Enkeltpersoner bruker ofte denne typen programmer hjemme eller på kontoret. E -post, memoer, bokstaver, data og tekst kan legges inn ved å snakke inn i en mikrofon.
Noen stemmegjenkjenningssystemer, kalt diskret tale systemer, krever at brukeren snakker tydelig og sLavt og for å skille ord. kontinuerlig tale systemer er designet for å forstå en mer naturlig modus for å snakke.
Diskrete tale -stemmegjenkjenningssystemer er mye brukt til ruting av kundeservicer. Systemet er høyttaleruavhengig , men forstår bare et lite basseng med ord eller uttrykk. Innringeren får et valg om å svare på et spørsmål, vanligvis med "ja" eller "nei." Etter å ha mottatt et svar, eskalerer systemet den som ringer til neste nivå. Hvis innringeren svarer med et unikt svar, er den automatiserte responsen vanligvis, "Beklager, jeg forsto deg ikke; prøv igjen," med en gjentakelse av spørsmålet og tilgjengelige svar. Denne typen stemmegjenkjenning blir også referert til som grammatikkbegrenset anerkjennelse.
Kontinuerlig tale er en mer sofistikert form for stemmegjenkjenningsprogramvare, der den som ringer kan snakke naturlig for å forklare et problem eller be om en tjeneste. Dette programmet er designet for å plukke ut stikkord eller uttrykk og lage en statistisk best gjett for hva kunden vil ha. Å snakke tydelig hjelper stemmegjenkjenning når det gjelder å identifisere behovet. Denne typen system har en langt mer intensiv database enn diskrete talesystemer og blir også referert til som naturlig språkgjenkjenning.
Automatisk talegjenkjenning (ASR) er en modell for stemmegjenkjenning designet for diktat. Denne programvaren skiller seg fra tidligere modeller ved at den ikke streber etter å forstå hva som blir sagt, bare for å identifisere ordene som er talt. Siden mange ord i engelskspråkene høres ut, blir det lett gjort feil. Imidlertid investerer store selskaper som Microsoft i stemmegjenkjenning, og Bill Gates 'egen spådom har ASR -forståelse av kontinuerlig tale innen 2011. ASR -programvare er ofte funnet på digitale stemmeopptakere.
Dominante spillere innen stemmegjenkjenningsprogramvare har vært Scansoft og Nuance, med det tidligere selskapet som anskaffet sistnevnte. Mindre spillere inkluderer Fonix -tale, Aculab og Verbio, blantAndre, med store selskaper som IBM og den nevnte Microsoft, investerer også i teknologien. Selv om mange fremdeles føler at det er mer problemer å trene programvare og rette feil enn å bare bruke et tastatur, kommer en tid når stemmegjenkjenningsprogramvare sannsynligvis vil lukke det gapet. Å forsterke tastaturer med diskriminerende evne til å bruke tale vil sannsynligvis bli vanlig.
Programvare for stemmegjenkjenning blir popularitet når den blir mer sofistikert. Det er spesielt nyttig i virksomheten der den kan erstatte en live operatør for å trakte samtaler, spre informasjon, ta bestillinger og utføre andre svært nyttige funksjoner. Imidlertid får det også fordel som et stasjonært program, hjulpet med kjent programvare som Scansofts, DragonNaturallySpeaking og IBMs viavoice .