Konuşma Sentezi Nedir?

Konuşma sentezi, sözlü iletişimin yapay bir cihaz aracılığıyla çoğaltıldığı bir süreçtir. Metni konuşmaya dönüştüren bir bilgisayar bir tür konuşma sentezleyicisidir.

En eski konuşma sentezi formları, insan ses yolu gibi işlev görmesi için tasarlanan makinelerle uygulandı. Wolfgang von Kempelen tarafından 1700'lerde oluşturulan konuşma makinesi buna bir örnektir. Bu cihazla, konuşma bir mutfak körüğü, bir gayda kamışı ve bir klarnet zili ile üretildi. Mutfak körüğü, bir akciğer gibi hareket etmek için tasarlanırken, glottis (ses tellerinin alanı), gayda kamışından temsil edildi. Klarnet zili ağız olarak görev yaptı.

Cihazın çalışması tamamen manueldi. Sağ el, bir dizi kolu kontrol ederken sol el, klarnet zilini (ağzı) hareket ettirdi. Daha az nazal bir ses elde etmek için 'burun deliklerini' takma seçeneği de vardı. Her iki durumda da, temel kontroller doğru bir şekilde kullanıldığı sürece, makine hava akımı aldı. Bu hava akımı, üretilecek ses türlerini belirledi.

18. ve 19. yüzyıllar boyunca sonraki konuşma makineleri bu düzenlemeyi sürdürdü, ancak iyileştirmeler vardı. Örneğin, 1800'lerin sonlarında, Joseph Faber, bir klavyeden ve bir pedaldan girdi alabilen bir konuşma makinesi yarattı. Makine aynı zamanda çok yaratıcıydı, çünkü ses yapay bir 'yüz'den' çıktı.

20. yüzyılın başlarında, elektronik alanındaki yenilikler konuşma sentezinin daha da güçlü bir yön almasına izin verdi. İnsan ses yolunu taklit etme önceliği hala aynı olsa da, 20. yüzyılın başlarında konuşan makineler, girdi daha hassas olduğundan daha iyi sesler üretebiliyordu.

Ancak, bilgisayarların ortaya çıkmasına kadar, konuşma sentezinin aslında eğlence alanının dışında kullanılabileceği söylenmedi. Bunun nedeni konuşma sentezleyicilerin ayrı bir makine yerine yazılımda depolanabilmesidir. Ek olarak, bir yardımcı olarak bilgisayarlarla konuşma sentezi farklı bir biçimde olabilir; İnsan seslerini ses için ana kaynak olarak kullanmak.

Bu konuşma sentezi biçimi birleştirici olarak bilinir. Süreç, insan konuşmasının çeşitli kayıtlarını birleştirerek çalışır. Ortaya çıkan ses çok daha doğal ve kulağa hoş geliyor. Bu, konuşmanın vokal sistemin bilgisayarlı bir modeli ile çoğaltıldığı artikülatör sentezi kullanan programların aksine.

Ticari konuşma sentezleyicileri, birleştirici veya açıklayıcı yöntemler kullanabilir, ancak her ikisi de aynı amacı gerçekleştirebilir; insanlara metin duyma fırsatı verebilmek. Bu, özellikle okumaların rahatsız edici veya imkansız olduğu durumlarda yardımcıdır.

İş dünyasında, bu tür durumlar, özellikle telefon işlemleri için çok yaygındır. Metin-konuşma (TTS) alternatifleri olmasaydı, işletme sahipleri daha çok müşteri hizmetleri personeli kiralamak için para harcamak zorunda kalacaklardı. Sentezlenmiş çözümler bu sorunu önler, çünkü her şey bilgisayar tarafından yapılır; bir insan değil.

Sentezlenmiş konuşma aynı zamanda günlük yaşamda, özellikle engelli bireylerde rol oynar. Konuşan saatler, sözlükler ve diğer cihazlar, görme veya okuma sorunu yaşayan insanlar için işleri kolaylaştırabilir. Sentezlenmiş konuşma bile konuşamayan bireylere ses bile verebilir. Ünlü bir fizikçi olan Steven Hawking öne çıkan bir örnek. Lou Gehrig'in hastalığı onu susturduğundan, Hawking insanlarla iletişim kurmak için bir ses sentezleyici kullanıyor.

Ayrıca çeşitli bilgisayar aktivitelerine sahip insanlara yardımcı olmak için TTS uygulamaları da bulunmaktadır. Bu tür uygulamaları elde etmek için çoğu kullanıcının ayrı bir yazılım satın alması veya yama indirmesi gerekir. İkinci seçenek, işletim sistemine veya kullanılan sözcük işlem programına bağlı olarak genellikle ücretsizdir. Bununla birlikte, bir kişi ayrı bir yazılım almaya karar verirse, daha yüksek kaliteli bir sisteme erişebilir. Natural Reader 7 ve Text Aloud 2 ile özel örnekler görülebilir.

Sonuçta, konuşma sentezi, insanlığın iletişim kurma biçiminde devrim yaratan bir teknolojidir. Bir anlamda metne kendine ait bir hayat verir. Aynı zamanda dünyaya normalde sesli olmayan parlak bireylerin düşüncelerini duyma fırsatı verir.