Vilka är de vanligaste problemen med taligenkänning?

Programmet för taligenkänning har utvecklats kraftigt sedan det uppfanns första gången, men har fortfarande flera stora problem som förhindrar att det enbart används som transkriptionsmetod. Några av de problem som är svåra att lösa taligenkänning inkluderar variationer i uttalandet av ord, individuella accenter, homonymer och oönskade ljud från omgivningen. En annan uppsättning problem för taligenkänning innebär den typ av hårdvara som används för att faktiskt mata in ljudet, eftersom resultaten kan ha stor inverkan på hur programvaran kommer att tolka talet. Det finns också problemet med att inte känna till sammanhanget för orden som talas, vilket kan leda till text som inte har någon skiljetecken eller felaktiga stavningar.

Ett av de mest grundläggande taligenkänningsproblemen är kvaliteten på de ingångsenheter som används. Om en mikrofon inte är tillräckligt känslig - eller är alltför känslig - kan den skapa ljudinformation som är svår för programvaran att dechiffrera. Detta gäller särskilt när en mikrofon är så känslig att talet är förvrängd, vilket gör igenkänningsprogramvaran nästan värdelös. Ett liknande problem härrör från bakgrundsbrus som kan vara problematiskt att separera från huvudtalet och kan orsaka felaktiga översättningar när de ingår i talbehandlingen.

Skillnader i uttal, accenter och talkadens kombineras för att bilda ett av de mer genomgripande problemen för taligenkänning. När ett enda ord kan uttalas på flera sätt kan programvaran bli förvirrad och felaktig tolkning av vad som sägs. Detsamma kan uppstå när en person pratar långsammare eller snabbare än programmet förväntar sig. Det finns några partiella lösningar, som att utbilda programvaran i talmönstren för en enskild användare och använda dynamiska tidsförskjutningsalgoritmer för att matcha talet till databasen med prover, men de löser inte alla problem.

Det mest komplicerade av taligenkänningsproblemen är att identifiera sammanhanget för orden som talas. Datorprogramvara kan inte identifiera den avsedda betydelsen av en samling av ord, vilket leder till ett antal problem med den transkriberade texten. Ord som har ett liknande ljud, som "deras" och "där", kan bara stavas noggrant när användningen är känd. Av samma anledning är exakt skiljetecken nästan omöjligt för programvaran att placera enbart baserat på att känna ordets ordning. Det finns funktionell transkriptionsprogramvara som används inom områden som medicin, men resultatet är ofta ett block med ord utan någon typ av separation, vilket innebär att det fortfarande krävs en mänsklig transkription för att redigera dokumentet och skapa en läsbar slutkopia.

ANDRA SPRÅK

Hjälpte den här artikeln dig? Tack för feedbacken Tack för feedbacken

Hur kan vi hjälpa? Hur kan vi hjälpa?