Hvad er stemmegenkendelse?

Stemmegenkendelse kan henvise til en af to typer datalogi: retsmedicinsk stemmeidentifikation eller tale-til-tekst-kapacitet. Denne artikel vedrører sidstnævnte definition.

stemmegenkendelse eller talegenkendelse i dette tilfælde er en computerteknologi, der bruger lydindgang til indtastning af data snarere end et tastatur. At tale ind i en mikrofon giver for eksempel det samme resultat som at skrive ord manuelt med et tastatur. Enkelt angivet er stemmegenkendelsessoftware designet med en intern database med genkendelige ord eller sætninger. Programmet matcher lydsignaturen af tale med tilsvarende poster i databasen.

Selvom det kan lyde let at omdanne tale til tekst, er det en ekstremt vanskelig opgave. Problemet ligger i det næsten uendelige udvalg af individuelle talemønstre og accenter, sammensat af den naturlige menneskelige tendens til at køre ord sammen.

En illustration af de iboende udfordringer ved stemmegenkendelsessoftware vises på en t-shirt creeated af Apple -forskere. Skjorten lyder, "Jeg hjalp Apple med at ødelægge en dejlig strand." Når det tales højt, lyder det som, Jeg hjalp Apple med at genkende tale.

Forskellige modeller for stemmegenkendelsessoftware bruges til en række applikationer, fra personlig diktat til kommerciel automatiseret opkaldsruting, fra at hjælpe den handicappede til undertitling af sport og nyhedsbegivenhed. Hver model opfører sig forskelligt og har sine egne kapaciteter og grænser.

Stemmegenkendelsesprogrammer, der kræver, at brugeren "træner" softwaren til at genkende deres særlige stiliserede tale mønstre kaldes højttalerafhængige systemer. Personer bruger ofte disse typer programmer derhjemme eller på kontoret. E -mail, memoer, breve, data og tekst kan indtastes ved at tale ind i en mikrofon.

Nogle stemmegenkendelsessystemer, kaldet diskrete tale systemer, kræver, at brugeren taler klart og slavt og til at adskille ord. Kontinuerlige tale systemer er designet til at forstå en mere naturlig tale.

Diskrete talestemmegenkendelsessystemer er vidt brugt til routing af kundeservice. Systemet er Højttaler Independent , men forstår kun en lille pulje af ord eller sætninger. Opkalderen får et valg om at besvare et spørgsmål, normalt med "ja" eller "nej." Efter modtagelse af et svar eskalerer systemet den, der ringer til det næste niveau. Hvis den, der ringer, svarer med et unikt svar, er det automatiserede svar normalt, "undskyld, jeg forstod ikke dig; prøv igen" med en gentagelse af spørgsmålet og tilgængelige svar. Denne type stemmegenkendelse kaldes også grammatik begrænset anerkendelse.

Kontinuerlig tale er en mere sofistikeret form for stemmegenkendelsessoftware, hvor den, der ringer, kan tale naturligt for at forklare et problem eller anmode om en tjeneste. Dette program er designet til at vælge nøgleord eller sætninger og lave en statistical Best-guess med hensyn til, hvad kunden ønsker. At tale klart hjælper stemmegenkendelse med at identificere behovet. Denne type system har en langt mere intensiv database end diskrete talesystemer og kaldes også naturlig sproggenkendelse.

Automatisk talegenkendelse (ASR) er en model for stemmegenkendelse designet til diktat. Denne software adskiller sig fra tidligere modeller, idet den ikke stræber efter at forstå, hvad der siges, kun for at identificere de talte ord. Da mange ord i det engelsksprogede lyd lyder, begik der let fejl. Imidlertid investerer større virksomheder som Microsoft i stemmegenkendelse, og Bill Gates 'egen forudsigelse har ASR forståelse af kontinuerlig tale inden år 2011. ASR -software findes ofte på digitale stemmeoptagere.

Dominerende spillere inden for stemmegenkendelsessoftware har været Scansoft og Nuance, hvor det tidligere selskab har erhvervet sidstnævnte. Mindre spillere inkluderer fonix tale, aculab og verbio, blandtAndre, med større virksomheder som IBM og den førnævnte Microsoft, investerer også i teknologien. Selvom mange stadig føler, at det er mere problemer at træne software og rette fejl end blot at bruge et tastatur, kommer en tid, hvor stemmegenkendelsessoftware sandsynligvis lukker dette hul. Forøgelse af tastaturer med den diskriminerede evne til at bruge tale vil sandsynligvis blive almindeligt.

stemmegenkendelsessoftware vinder popularitet, når den bliver mere sofistikeret. Det er især nyttigt i erhvervslivet, hvor det kan erstatte en live operatør til tragtopkald, formidle information, tage ordrer og udføre andre meget nyttige funktioner. Imidlertid vinder det også fordel som en desktop -applikation, hjulpet med af anerkendt software som Scansoft's, DragonNaturallySpeaking og IBM's Viavoice .

Hvad er stemmegenkendelse?

ANDRE SPROG

RELATEREDE ARTIKLER

Hvordan kan vi hjælpe?