Hva er de vanligste problemene for talegjenkjenning?

Programvare for talegjenkjenning har avansert kraftig siden den ble oppfunnet første gang, men den har fremdeles flere store problemer som forhindrer at den utelukkende brukes som transkripsjonsmetode. Noen av talegjenkjenningsproblemene som er vanskelige å løse inkluderer variasjoner i uttalen av ord, individuelle aksenter, homonymer og uønskede omgivelseslyder. Et annet sett med talegjenkjenningsproblemer involverer den type maskinvare som brukes til å faktisk legge inn lyden, fordi resultatene kan ha stor innvirkning på hvordan programvaren vil tolke talen. Det er også problemet med å ikke kjenne til konteksten til ordene som blir snakket, noe som kan føre til tekst som ikke har tegnsetting eller unøyaktige skrivemåter.

Et av de mest grunnleggende talegjenkjenningsproblemene er kvaliteten på inndataenhetene som brukes. Hvis en mikrofon ikke er følsom nok - eller er altfor følsom - kan den lage lydinformasjon som er vanskelig for programvaren å tyde. Dette gjelder spesielt når en mikrofon er så følsom at talen er forvrengt, noe som gjør gjenkjennelsesprogramvaren nesten ubrukelig. Et lignende problem stammer fra bakgrunnsstøy som kan være problematisk å skille ut fra hovedtalen og kan forårsake unøyaktige oversettelser når de er inkludert i talebehandlingen.

Forskjeller i uttale, aksenter og talekadens kombineres for å danne et av de mer gjennomgripende problemene for talegjenkjenning. Når et enkelt ord kan uttales på flere måter, kan programvaren bli forvirret og tolke feil det som blir sagt. Det samme kan oppstå når en person snakker saktere eller raskere enn programmet forventer. Det er noen delvise løsninger, for eksempel å trene programvaren i talemønstrene til en enkelt bruker og bruke dynamiske tidslange algoritmer for å matche talen til databasen med prøver, men de løser ikke alle problemene.

Det mest komplekse av talegjenkjenningsproblemene er å identifisere konteksten til ordene som blir snakket. Dataprogramvare kan ikke identifisere den tiltenkte betydningen av en samling av ord, noe som fører til en rekke problemer med den transkriberte teksten. Ord som har en lignende lyd, for eksempel "deres" og "der", kan bare staves nøyaktig når konteksten for bruk er kjent. Av samme grunn er nøyaktig tegnsetting nesten umulig for programvaren å plassere basert utelukkende på å kjenne ordrekkefølgen. Det er funksjonell transkripsjonsprogramvare som brukes innen felt som medisin, men resultatet er ofte en blokk med ord uten noen form for separasjon, noe som betyr at det fremdeles tar en menneskelig transkripsjonist å redigere dokumentet og lage en lesbar sluttkopi.

Hva er de vanligste problemene for talegjenkjenning?

Hjalp denne artikkelen deg?