Wat is spraaksynthese?
Spraaksynthese is een proces waarbij verbale communicatie wordt gerepliceerd via een kunstmatig apparaat. Een computer die tekst omzet in spraak is een soort spraaksynthesizer.
De vroegste vormen van spraaksynthese werden geïmplementeerd via machines die waren ontworpen om te functioneren als het menselijk vocale kanaal. De sprekende machine gemaakt door Wolfgang von Kempelen in de jaren 1700 is een voorbeeld. Met dit apparaat werd spraak geproduceerd via een keukenbalg, een doedelzakriet en een klarinetbel. De keukenbalg was ontworpen om te werken als een long, terwijl de glottis (het gebied van de stembanden) werd weergegeven door het doedelzakriet. De klarinetbel diende als mond.
De bediening van het apparaat was volledig handmatig. De rechterhand bediende een reeks hendels terwijl de linkerhand de klarinetklok (mond) manipuleerde. Er was ook de mogelijkheid om de 'neusgaten' aan te sluiten om een minder nasaal geluid te produceren. Hoe dan ook, zolang de basisbedieningen correct werden gebruikt, ontving de machine luchtstroom. Deze luchtstroom bepaalde het soort geluiden dat zou worden geproduceerd.
De daaropvolgende sprekende machines in de 18e en 19e eeuw hebben deze opstelling behouden, hoewel er verbeteringen waren. Aan het einde van de 19e eeuw creëerde Joseph Faber bijvoorbeeld een sprekende machine die invoer kon ontvangen via een toetsenbord en een pedaal. De machine was ook erg creatief, omdat het geluid door een kunstmatig 'gezicht' naar buiten kwam.
Toen de 20e eeuw voorbij kwam, konden innovaties in elektronica spraaksynthese een nog krachtigere richting geven. Hoewel het uitgangspunt van het imiteren van het menselijk stemband nog steeds hetzelfde was, konden begin 20e-eeuwse sprekende machines betere geluiden produceren, omdat de invoer preciezer was.
Pas vanaf de komst van computers kon spraaksynthese buiten de entertainmentarena worden gebruikt. Dit komt vooral omdat spraaksynthesizers in software kunnen worden opgeslagen in plaats van in een afzonderlijke machine. Bovendien, met computers als hulpmiddel, zou spraaksynthese een andere vorm kunnen aannemen; menselijke stemmen gebruiken als de belangrijkste bron voor geluid.
Deze vorm van spraaksynthese staat bekend als aaneenschakeling. Het proces werkt door verschillende opnames van menselijke spraak te verbinden. Het resulterende geluid is veel natuurlijker en aangenamer voor het oor. Dit in tegenstelling tot programma's die articulatoire synthese gebruiken, waarbij spraak wordt gerepliceerd via een geautomatiseerd model van het vocale kanaal.
Commerciële spraaksynthesizers kunnen ofwel concatenatieve of articulerende methoden gebruiken, maar beide zijn in staat hetzelfde doel te bereiken; mensen de mogelijkheid kunnen geven om tekst te horen. Dit is vooral handig in situaties waarin lezen opdringerig of onmogelijk is.
In het bedrijfsleven komen dergelijke situaties veel voor, vooral bij telefonische transacties. Zonder alternatieven voor tekst-naar-spraak (TTS) zouden bedrijfseigenaren geld moeten uitgeven om nog meer personeel van de klantenservice in dienst te nemen. Synthetische oplossingen voorkomen dit probleem, omdat alles via de computer gebeurt; geen mens.
Gesynthetiseerde spraak speelt ook een rol in het dagelijks leven, vooral voor personen met een handicap. Praten klokken, woordenboeken en andere apparaten kunnen dingen gemakkelijker maken voor mensen die moeite hebben met zien of lezen. Gesynthetiseerde spraak kan zelfs een stem geven aan personen die helemaal niet konden praten. Steven Hawking, een beroemde natuurkundige, is een prominent voorbeeld. Omdat de ziekte van Lou Gehrig hem heeft gedempt, gebruikt Hawking een spraaksynthesizer om met mensen te communiceren.
Er zijn ook TTS-applicaties beschikbaar om mensen te helpen met verschillende computeractiviteiten. Om dit soort toepassingen te verkrijgen, moeten de meeste gebruikers afzonderlijke software kopen of patches downloaden. De laatste optie is meestal gratis, afhankelijk van het besturingssysteem of het tekstverwerkingsprogramma dat wordt gebruikt. Als een persoon echter besluit afzonderlijke software te kopen, kan deze toegang hebben tot een systeem van hogere kwaliteit. Specifieke voorbeelden zijn te zien via Natural Reader 7 en Text Aloud 2.
Uiteindelijk is spraaksynthese technologie die een revolutie teweeg heeft gebracht in de manier waarop de mens communiceert. In zekere zin geeft het tekst een eigen leven. Het geeft de wereld ook de gelegenheid om de gedachten te horen van briljante individuen die normaal gesproken stemloos zouden zijn geweest.