Hvad er de mest almindelige problemer med talegenkendelse?
Talegenkendelsessoftware er langt fremskredet, siden det først blev opfundet, men det har stadig adskillige store problemer, der forhindrer, at det udelukkende bruges som transkriptionsmetode. Nogle af talegenkendelsesproblemerne, der er vanskelige at løse, inkluderer variationer i udtalen af ord, individuelle accenter, homonymer og uønskede omgivelseslyde. Et andet sæt talegenkendelsesproblemer involverer den type hardware, der bruges til faktisk at indtaste lyden, fordi resultaterne kan have stor indflydelse på, hvordan softwaren vil fortolke talen. Der er også problemet med ikke at kende konteksten af de ord, der bliver talt, hvilket kan føre til tekst, der ikke har nogen tegnsætning eller unøjagtige stavemåder.
Et af de mest basale talegenkendelsesproblemer er kvaliteten af de inputenheder, der bruges. Hvis en mikrofon ikke er følsom nok - eller er for følsom - kan den skabe lydinformation, der er vanskelig for softwaren at dechiffrere. Dette gælder især, når en mikrofon er så følsom, at talen er forvrænget, hvilket gør genkendelsessoftwaren næsten ubrugelig. Et lignende problem stammer fra baggrundsstøj, der kan være problematisk at adskille fra hovedtalen og kan forårsage unøjagtige oversættelser, når de er inkluderet i talebehandlingen.
Forskelle i udtale, accenter og talekadens kombineres og danner et af de mere gennemgribende taleegenkendelsesproblemer. Når et enkelt ord kan udtales på flere måder, kan softwaren blive forvirret og forkert fortolke, hvad der bliver sagt. Det samme kan opstå, når en person taler langsommere eller hurtigere, end programmet forventer. Der er nogle delvise løsninger, såsom at uddanne softwaren i talemønstrene for en enkelt bruger og bruge dynamiske tidsvindingsalgoritmer til at matche talen til databasen med prøver, men de løser ikke alle problemer.
Det mest komplekse af taleegenkendelsesproblemerne er at identificere konteksten af de ord, der bliver talt. Computersoftware kan ikke identificere den tilsigtede betydning af en samling af ord, hvilket fører til en række problemer med den transkriberede tekst. Ord, der har en lignende lyd, såsom "deres" og "der", kan kun staves nøjagtigt, når kontekst af brug er kendt. Af samme grund er nøjagtig tegnsætning næsten umulig for softwaren at placere udelukkende på at kende ordets rækkefølge. Der er funktionel transkriptionssoftware, der bruges inden for områder som medicin, men resultatet er ofte en blok af ord uden nogen form for adskillelse, hvilket betyder, at det stadig kræver en menneskelig transkriptionist at redigere dokumentet og skabe en læsbar slutkopi.