Skip to main content

Какова связь между синтезом речи и распознаванием?

Синтез и распознавание речи являются двумя сторонами компьютерного анализа речи. Синтез речи - это создание человеческой речи с помощью компьютера; например, компьютер читает письменный текст. Распознавание речи - это создание компьютерной информации из произнесенных слов, таких как диктовка бумаги компьютеру. Хотя эти два процесса не имеют прямого отношения, синтез и распознавание речи зависят от способности компьютера понимать человеческую речь и интонацию. Один метод является выходным, а другой - входным.

Процессы, используемые при синтезе и распознавании речи, очень похожи, даже если конечный продукт отличается. Процесс состоит из двух частей, одна часть с человеческим взаимодействием и одна без. Человеческая часть - это когда человеческие слова входят в программу; нечеловеческая часть - это когда программа взаимодействует с вводом.

Программа синтеза речи будет принимать участие человека в форме или на печатном или письменном человеческом языке. Программа прочитает язык и определит, что является каждым словом, используя расстановку предложений и знаки препинания для определения перегиба. Когда слово может быть произнесено несколькими способами, например, в случае «живого», программа будет искать близлежащие слова и контекстные подсказки, чтобы определить, какое слово фактически используется. Затем слова перейдут во вторую часть программы, где они произносятся вслух.

В программе распознавания речи процесс противоположен. Входные данные поступают от человека, говорящего словами в компьютер. Компьютер будет слушать каждое слово и сравнивать шаблон, генерируемый голосом говорящего, с библиотекой возможных звуков и слов. Затем он определяет наиболее вероятное слово и отправляет его во вторую часть системы. Эта часть фактически выводит слова на экран, подобно тому, как программа синтеза произносит слова.

Поскольку каждый говорящий звучит немного по-разному, программы синтеза и распознавания речи часто имеют большой предел погрешности. Один из способов борьбы с этими ошибками - использование индивидуальных речевых профилей. Программа будет анализировать речь одного из спикеров, чтобы найти его специфические вокальные данные. Когда он находит ошибки в компьютерном переводе, он может специально их исправить. Исправления анализируются и сохраняются программой, поэтому, когда неприятное слово появляется снова, программа переведет его правильно.

Существует широкое применение для программ синтеза и распознавания речи. В медицинской сфере эти программы позволяют людям общаться, которые в противном случае не смогли бы. Эти программы имеют широкое применение в бизнесе как более быстрое средство перевода отчетов и документов. Распознавание речи также является распространенным методом настройки устройств громкой связи в автомобилях, позволяя людям более безопасно разговаривать по телефону во время вождения.