Farklı Konuşma Tanıma Teknikleri Nedir?

Sözlü kelimeleri yakalamak ve bunları bir yazılım programı tarafından kullanılabilecek verilere dönüştürmek için çeşitli konuşma tanıma teknikleri kullanılır. Ne söylendiğini belirlemek için konuşmayı analiz etmenin üç geniş yolu vardır. Birincisine ayrı konuşma denir, yani bir seferde sadece tek bir kelime konuşulur. İkincisi bağlantılı konuşma olarak bilinir ve kelimeler anlaşılması için belirli bir şekilde konuşulmalıdır. Son olarak, sürekli konuşma var, çoğu insan normalde böyle konuşuyor.

Tüm konuşma tanıma teknikleri için kullanılan en yaygın algoritma Gizli Markov Modelidir (HMM). Bu sistem, büyük ses dalgaları ağaçlarını veya bir sesin diğerini takip eden istatistiksel olasılığına bölünen temel sesleri ve heceleri içerir. Her bir fonemi seslerin veri ağacındaki bir düğümle karşılaştırarak, gerçek tamamlanmış kelime nispeten kısa bir sürede yüksek bir doğruluk oranı ile belirlenebilir.

Bazı konuşma tanıma teknikleri ile üstesinden gelinmesi zor olan bir problem, bir kelimenin başladığı ve bittiği yerin izole edilmesidir. Bu görev, odadaki arka plan gürültüsü ve bazı hecelerin sözcükler arasında bir ara vermeyi andıran bir ses imzası olması nedeniyle karmaşıktır. Bu nedenle, ayrık ve bağlı konuşma tanıma teknikleri en doğru olanıdır.

Farklı konuşma tanıma tekniklerini ayıran bir diğer faktör, yazılım kelime dağarcığı konusudur. Konuşmayı yorumlayan yazılım, yüksek doğrulukta çok sınırlı bir kelime haznesine veya belirli bir kullanıcının bireysel konuşma düzenleriyle eşleştirilmesi gereken büyük bir kelime haznesine sahip olabilir. Bir program sözcükleri birleştirmek için HMM yöntemini kullandığında, anlaşılan kelime sayısı ne kadar az olursa, program o kadar doğru olabilir. Bu, çoğu otomatik telefon sisteminin sayıların veya soruların yanıtlarının şifresini çözmek için kullandığı yöntemdir.

Büyük bir kelimeyi anlayan konuşma tanıma teknikleri genellikle çok az veya sadece bir kullanıcı ile etkileşime girecek şekilde tasarlanmıştır. Bunun nedeni, programın konuşan kişinin konuşma kalıplarını anlamak için eğitilmiş olmasıdır. Eğitim, yazılı metin paragraflarının yazılıma okunmasını içerir. Okunmakta olan kelimeler bilinir, böylece program kullanıcıya özel bir istatistiksel fonem modeli oluşturabilir. Bu, programa kullanıcıyı anlama konusunda daha iyi bir şans verir, ancak programın eğitim almadığı insanları anlamalarını da engelleyebilir.

Konuşma tanıma tekniklerinin en zoru sürekli veya doğal konuşmayı yorumlamaktır. Birçok kişi, kelimeleri bir araya getirme ve farklı hızlarda konuşma eğilimindedir, bu nedenle sürekli konuşmayı çeviren programların doğruluğu diğer yöntemlerden daha düşüktür. Yine de, bu tür konuşmaları tercüme edebilecek programlar vardır, bazıları kalıpları tanımak ve sözcükleri izole etmek için bulanık mantık ve sinir ağları kullanırlar.