Hvad er stemmegenkendelse?
Stemmegenkendelse kan henvise til en af to typer computervidenskab: retsmedicinsk stemmidentifikation eller tale-til-tekst-funktion. Denne artikel vedrører sidstnævnte definition.
Stemmegenkendelse eller talegenkendelse i dette tilfælde er en computerteknologi, der bruger lydindgang til at indtaste data i stedet for et tastatur. At tale til en mikrofon for eksempel giver det samme resultat som at skrive ord manuelt med et tastatur. Enkelt sagt er stemmegenkendelsessoftware designet med en intern database med genkendelige ord eller sætninger. Programmet matcher lydsignaturen til tale med tilsvarende poster i databasen.
Selvom det muligvis lyder at omdanne tale til tekst, er det en ekstremt vanskelig opgave. Problemet ligger i den næsten uendelige række individuelle talemønstre og accenter, forstærket af den naturlige menneskelige tendens til at føre ord sammen.
En illustration af de iboende udfordringer ved stemmegenkendelsessoftware vises på en T-shirt oprettet af Apple-forskere. Trøjen lyder: "Jeg hjalp Apple med at ødelægge en dejlig strand." Når jeg tales højt, lyder det som, jeg hjalp Apple med at genkende tale.
Forskellige modeller af stemmegenkendelsessoftware bruges til en række applikationer, fra personlig diktering til kommerciel automatiseret opkaldsrutering, fra hjælp til handicappede til sport og undertekst på nyhedsbegivenheder. Hver model opfører sig forskelligt og har sine egne evner og grænser.
Stemmegenkendelsesprogrammer, der kræver, at brugeren "træner" softwaren til at genkende deres særlige stiliserede talemønstre kaldes højttalerafhængige systemer. Enkeltpersoner bruger ofte disse typer programmer derhjemme eller på kontoret. E-mail, memoer, bogstaver, data og tekst kan indtastes ved at tale i en mikrofon.
Nogle stemmegenkendelsessystemer, kaldet diskrete talesystemer , kræver, at brugeren taler klart og langsomt og at adskille ord. Kontinuerlige talesystemer er designet til at forstå en mere naturlig måde at tale på.
Diskrete talestemmegenkendelsessystemer er vidt brugt til routing af kundeservice. Systemet er højttaleruafhængigt , men forstår kun en lille pool af ord eller sætninger. Opkalderen får et valg om at besvare et spørgsmål, normalt med "ja" eller "nej." Efter at have modtaget et svar eskalerer systemet opkaldet til næste niveau. Hvis den, der ringer, svarer med et unikt svar, er det automatiske svar normalt: "Beklager, jeg forstod dig ikke; prøv igen" med en gentagelse af spørgsmålet og tilgængelige svar. Denne type stemmegenkendelse kaldes også grammatisk begrænset genkendelse.
Kontinuerlig tale er en mere sofistikeret form for stemmegenkendelsessoftware, hvor den, der ringer, kan tale naturligt for at forklare et problem eller anmode om en service. Dette program er designet til at udvælge nøgleord eller sætninger og foretage en statistisk bedst gæt om, hvad kunden ønsker. At tale normalt hjælper stemmegenkendelse med at identificere behovet. Denne type system har en langt mere intensiv database end diskrete talesystemer og benævnes også naturligt sproggenkendelse.
Automatisk talegenkendelse (ASR) er en model for stemmegenkendelse designet til diktering. Denne software adskiller sig fra tidligere modeller, idet den ikke stræber efter at forstå, hvad der siges, kun for at identificere de talte ord. Da mange ord på det engelske sprog lyder ens, gøres der let fejl. Imidlertid investerer større virksomheder som Microsoft i stemmegenkendelse, og Bill Gates 'egen forudsigelse har ASR forståelse af kontinuerlig tale inden år 2011. ASR-software findes ofte på digitale stemmecoptagere.
Dominerende spillere i stemmegenkendelsessoftware har været ScanSoft og Nuance, hvor det tidligere selskab erhverver sidstnævnte. Mindre spillere inkluderer blandt andet Fonix Speech, Aculab og Verbio, hvor store virksomheder som IBM og den førnævnte Microsoft også investerer i teknologien. Selvom mange stadig føler, at det er mere besvær at træne software og rette fejl, end at blot bruge et tastatur, kommer der en tid, hvor stemmegenkendelsessoftware sandsynligvis vil lukke dette hul. Forøgelse af tastaturer med en forskelagtig evne til at bruge tale vil sandsynligvis blive almindelige.
Stemmegenkendelsessoftware vinder popularitet, når det bliver mere sofistikeret. Det er især nyttigt i erhvervslivet, hvor det kan erstatte en live operatør til at tragtke opkald, sprede information, tage ordrer og udføre andre meget nyttige funktioner. Men det vinder også fordel som en desktop-applikation, hjulpet med af berømt software som ScanSofts, DragonNaturallySpeaking og IBM's ViaVoice .