Wat is stemherkenning?
Spraakherkenning kan verwijzen naar een van de twee soorten informatica: forensische spraakidentificatie of spraak-to-text-mogelijkheden. Dit artikel behandelt de laatste definitie.
Spraakherkenning of spraakherkenning in dit geval is een computertechnologie die audio -invoer gebruikt voor het invoeren van gegevens in plaats van een toetsenbord. Sprekend in een microfoon produceert bijvoorbeeld hetzelfde resultaat als het handmatig typen van woorden met een toetsenbord. Simpel gezegd, spraakherkenningssoftware is ontworpen met een interne database met herkenbare woorden of zinnen. Het programma komt overeen met de audio -handtekening van spraak met overeenkomstige vermeldingen in de database.
Hoewel het veranderen van spraak in tekst misschien eenvoudig klinkt, is het een uiterst moeilijke taak. Het probleem ligt in de vrijwel oneindige reeks individuele spraakpatronen en accenten, verergerd door de natuurlijke menselijke neiging om woorden samen te laten draaien.
Een illustratie van de inherente uitdagingen van spraakherkenningssoftware verschijnt op een T-shirt CREAssed door Apple -onderzoekers. Het shirt luidt: "Ik heb Apple geholpen een mooi strand te verwoesten." Wanneer het hardop wordt gesproken, klinkt het alsof, Ik heb Apple geholpen spraak te herkennen.
Verschillende modellen van spraakherkenningssoftware worden gebruikt voor een scala aan applicaties, van persoonlijke dictatie tot commerciële geautomatiseerde callrouting, van het helpen van de gehandicapten tot sport- en nieuwsgebeurtenissen ondertiteling. Elk model gedraagt zich anders en heeft zijn eigen mogelijkheden en grenzen.
Programma's voor spraakherkenning waarbij de gebruiker de software moet "trainen" om zijn specifieke gestileerde spraakpatronen te herkennen, worden luidsprekerafhankelijke -systemen genoemd. Individuen gebruiken dit soort programma's vaak thuis of op kantoor. E -mail, memo's, letters, gegevens en tekst kunnen worden ingevoerd door in een microfoon te spreken.
Sommige spraakherkenningssystemen, genaamd discrete speech Systems, vereisen de gebruiker om duidelijk te spreken en slaag en om woorden te scheiden. Continue spraak systemen zijn ontworpen om een meer natuurlijke manier van spreken te begrijpen.
Discrete spraak spraakherkenningssystemen worden veel gebruikt voor klantenservice -routing. Het systeem is spreker onafhankelijk , maar begrijpt slechts een kleine pool van woorden of zinnen. De beller krijgt de keuze om een vraag te beantwoorden, meestal met "ja" of "nee". Na een antwoord te hebben ontvangen, escaleert het systeem de beller naar het volgende niveau. Als de beller antwoordt met een uniek antwoord, is het geautomatiseerde antwoord meestal: "Sorry, ik heb u niet begrepen; probeer het opnieuw", met een herhaling van de vraag en beschikbare antwoorden. Dit type spraakherkenning wordt ook wel grammatica beperkte herkenning genoemd.
Continue spraak is een meer geavanceerde vorm van spraakherkenningssoftware, waarbij de beller op natuurlijke wijze kan spreken om een probleem uit te leggen of een service aan te vragen. Dit programma is ontworpen om sleutelwoorden of zinnen uit te kiezen en een stat te makenISTICAL BESTE GUESS over wat de klant wil. Spreken helpt duidelijk stemherkenning bij het identificeren van de behoefte. Dit type systeem heeft een veel intensievere database dan discrete spraaksystemen en wordt ook wel natuurlijke taalherkenning genoemd.
Automatische spraakherkenning (ASR) is een model van spraakherkenning die is ontworpen voor dictaat. Deze software verschilt van eerdere modellen in die zin dat het niet streeft om te begrijpen wat er wordt gezegd, alleen om de gesproken woorden te identificeren. Aangezien veel woorden in het Engelse taalgeluiden, worden fouten gemakkelijk gemaakt. Grote bedrijven zoals Microsoft investeren echter in spraakherkenning, en de eigen voorspelling van Bill Gates heeft ASR inzicht in continue spraak tegen het jaar 2011. ASR -software wordt vaak gevonden op digitale spraakrecorders.
Dominante spelers in spraakherkenningssoftware zijn Scansoft en Nuance geweest, waarbij het voormalige bedrijf de laatste verwerft. Kleinere spelers zijn onder meer Fonix -speech, Aculab en Verbio, onderAnderen, met grote bedrijven zoals IBM en de eerder genoemde Microsoft die ook in de technologie investeren. Hoewel velen nog steeds het gevoel hebben dat het meer problemen is om software te trainen en fouten te corrigeren dan om gewoon een toetsenbord te gebruiken, komt er een tijd wanneer spraakherkenningssoftware die kloof waarschijnlijk zal sluiten. Het vergroten van toetsenborden met het discriminatievermogen om spraak te gebruiken, zal waarschijnlijk gemeengoed worden.
Software van spraakherkenningssoftware wint aan populariteit naarmate het geavanceerder wordt. Het is vooral handig in het bedrijfsleven waar het een live -operator kan vervangen om oproepen te trechter, informatie te verspreiden, bestellingen aan te nemen en andere zeer nuttige functies uit te voeren. Het krijgt echter ook gunst als een desktoptoepassing, geholpen door gerenommeerde software zoals Scansoft's, DragonnaturallySpeaking en IBM's ViaVoice .