Wat is het verband tussen spraaksynthese en herkenning?
Spraaksynthese en -herkenning zijn de twee kanten van geautomatiseerde spraakanalyse. Spraaksynthese is het creëren van menselijke spraak door een computer; bijvoorbeeld een computer die geschreven tekst leest. Spraakherkenning is het maken van computerinformatie op basis van gesproken woorden, zoals het dicteren van een paper naar een computer. Hoewel de twee processen niet direct verband houden, zijn spraaksynthese en -herkenning beide afhankelijk van het vermogen van een computer om menselijke spraak en verbuiging te begrijpen. Een methode is output en de andere is input.
De processen die worden gebruikt bij spraaksynthese en -herkenning zijn zeer vergelijkbaar, zelfs als het eindproduct anders is. Het proces bestaat uit twee delen, een deel met menselijke interactie en een deel zonder. Het menselijke deel is wanneer menselijke woorden het programma binnenkomen; het niet-menselijke deel is wanneer het programma de invoer koppelt.
Een spraaksynthese-programma zal menselijke input bevatten in de vorm of getypte of geschreven menselijke taal. Het programma zal de taal lezen en bepalen wat elk woord is, met behulp van zinsplaatsing en interpunctie om verbuiging te bepalen. Wanneer een woord op meerdere manieren kan worden uitgesproken, zoals in het geval van 'live', zoekt het programma naar woorden in de buurt en context-aanwijzingen om te bepalen welk woord daadwerkelijk wordt gebruikt. De woorden gaan dan naar het tweede deel van het programma, waar ze hardop worden uitgesproken.
In een spraakherkenningsprogramma is het proces tegenovergesteld. De input komt van een menselijke spreker die woorden in een computer zegt. De computer luistert naar elk woord en vergelijkt het door de stem van de spreker gegenereerde patroon met een bibliotheek met mogelijke geluiden en woorden. Vervolgens wordt het meest waarschijnlijke woord bepaald en naar het tweede deel van het systeem verzonden. Dit gedeelte drukt de woorden daadwerkelijk op het scherm af, vergelijkbaar met hoe het synthese-programma de woorden zegt.
Omdat elke luidspreker net iets anders klinkt, hebben spraaksynthese en herkenningsprogramma's vaak een grote foutmarge. Een van de manieren waarop mensen deze fouten bestrijden, is door middel van geïndividualiseerde spraakprofielen. Een spreker laat zijn spraak analyseren door het programma om zijn specifieke vocale patronen te vinden. Wanneer hij fouten in de computervertaling vindt, kan hij deze specifiek corrigeren. De correcties worden geanalyseerd en opgeslagen door het programma, dus wanneer het lastige woord weer verschijnt, zal het programma het correct vertalen.
Er is een brede toepassing voor spraaksynthese en herkenningsprogramma's. Op medisch gebied stellen deze programma's mensen in staat te communiceren die dit anders misschien niet kunnen. Deze programma's hebben een brede toepassing in het bedrijfsleven als een sneller middel voor het vertalen van rapporten en documenten. Spraakherkenning is ook een veelgebruikte methode voor het instellen van handsfree apparaten in auto's, waardoor mensen tijdens het rijden veiliger kunnen praten.