Ses Tanıma Nedir?

Ses tanıma, iki tür bilgisayar biliminden birine atıfta bulunabilir: adli ses tanıma veya konuşma metni özelliği. Bu makale ikinci tanımı ele almaktadır.

Ses tanıma veya bu durumda konuşma tanıma, klavye yerine veri girmek için ses girişini kullanan bir bilgisayar teknolojisidir. Örneğin bir mikrofona konuşmak, klavyeyle kelimeleri elle yazmakla aynı sonucu verir. Basitçe belirtildiği gibi, ses tanıma yazılımı, tanınabilir kelimelerin veya ifadelerin dahili bir veritabanı ile tasarlanmıştır. Program konuşmanın ses imzasını veritabanındaki karşılık gelen girişlerle eşleştirir.

Konuşmayı metne dönüştürmek kolay gelse de, bu oldukça zor bir iştir. Buradaki problem, neredeyse insanın kelimeleri bir araya getirme eğilimi ile birleştirilen, neredeyse sonsuz bireysel konuşma düzenleri ve aksan dizisinde yatmaktadır.

Ses tanıma yazılımının kendine özgü zorluklarının bir örneği, Apple araştırmacıları tarafından yaratılan bir Tişört üzerinde belirir. Gömlek, "Apple'ın güzel bir plajı mahvetmesine yardım ettim." Yüksek sesle konuşulduğunda, Apple'ın konuşmayı tanımasına yardım ettim.

Kişisel dikteden ticari otomatik çağrı yönlendirmeye, engellilere yardımcı olmaktan spor ve haber etkinliği altyazılarına kadar bir dizi uygulama için çeşitli ses tanıma yazılımı modelleri kullanılmaktadır. Her model farklı davranır ve kendi yeteneklerine ve sınırlarına sahiptir.

Kullanıcının kendi stilize edilmiş konuşma kalıplarını tanımak için yazılımı "eğitmesini" gerektiren ses tanıma programlarına konuşmacıya bağlı sistemler denir. Bireyler genellikle bu tür programları evde veya ofiste kullanırlar. Bir mikrofona konuşarak e-posta, notlar, harfler, veriler ve metinler girilebilir.

Ayrık konuşma sistemleri olarak adlandırılan bazı ses tanıma sistemleri, kullanıcının açık ve yavaş konuşmasını ve kelimeleri ayırmasını gerektirir. Sürekli konuşma sistemleri, daha doğal bir konuşma biçimini anlamak için tasarlanmıştır.

Ayrık konuşma ses tanıma sistemleri, müşteri hizmetleri yönlendirmesi için yaygın olarak kullanılmaktadır. Sistem konuşmacıdan bağımsızdır , ancak yalnızca küçük bir sözcük veya kelime öbeği havuzunu anlar. Arayan kişiye genellikle "evet" veya "hayır" ile bir soruya cevap verme seçeneği sunulur. Bir cevap aldıktan sonra, sistem arayanı bir sonraki seviyeye yükseltir. Arayan kişi benzersiz bir cevapla cevap verirse, otomatik cevap genellikle "Üzgünüm, sizi anlamadım; lütfen tekrar deneyin", soruyu tekrarlayın ve mevcut cevapları ile. Bu tür ses tanıma, gramer kısıtlamalı tanıma olarak da adlandırılır .

Sürekli konuşma, daha karmaşık bir ses tanıma yazılımı biçimidir, burada arayan kişi bir sorunu açıklamak veya bir hizmet talep etmek için doğal olarak konuşabilir. Bu program, anahtar kelimeler veya kelime öbekleri seçmek ve müşterinin istediği şekilde istatistiksel olarak en iyi tahminde bulunmak için tasarlanmıştır. Açıkça konuşmak, ihtiyacın belirlenmesinde ses tanımaya yardımcı olur. Bu tür bir sistem, gizli konuşma sistemlerinden çok daha yoğun bir veritabanına sahiptir ve aynı zamanda doğal dil tanıma olarak da adlandırılır .

Otomatik Konuşma Tanıma (ASR), dikte için tasarlanmış bir ses tanıma modelidir. Bu yazılım önceki modellerden farklıdır, çünkü ne söylendiğini anlamak için konuşulur, sadece konuşulan kelimeleri tanımlar. İngilizce dilinde pek çok kelime aynı ses çıkardığından, hatalar kolayca yapılabilir. Bununla birlikte, Microsoft gibi büyük şirketler ses tanımaya yatırım yapıyor ve Bill Gates'in kendi öngörüsü 2011 yılına kadar ASR'yi sürekli olarak anlıyor. ASR yazılımı genellikle dijital ses kayıt cihazlarında bulunur.

Ses tanıma yazılımındaki baskın oyuncular, eski firmayı satın alan ScanSoft ve Nuance olmuştur. Küçük oyuncular arasında Fonix Speech, Aculab ve Verbio, diğerleri arasında IBM ve daha önce bahsedilen Microsoft gibi büyük şirketler de bu teknolojiye yatırım yapıyor. Birçoğu hala yazılımı eğitmenin ve hataları düzeltmenin bir klavyeyi kullanmaktan daha fazla sorun olduğunu düşünmesine rağmen, ses tanıma yazılımının bu açığı kapatması muhtemeldir. Klavyelerin ayırt edici bir şekilde konuşma özelliğini kullanma yeteneğini arttırması muhtemelen yaygın hale gelecektir.

Ses tanıma yazılımı daha karmaşık hale geldikçe popülerlik kazanıyor. Özellikle, aramaları huni yapmak, bilgi yaymak, sipariş almak ve diğer son derece yararlı işlevleri yerine getirmek için canlı bir operatörün yerini alabileceği işlerde yararlıdır. Bununla birlikte, ScanSoft's, DragonNaturallySpeaking ve IBM'in ViaVoice gibi ünlü yazılımların da desteğiyle bir masaüstü uygulaması olarak da avantaj kazanıyor .