Skip to main content

Что такое синтез речи?

Синтез речи - это процесс, в котором словесное общение воспроизводится с помощью искусственного устройства. Компьютер, который преобразует текст в речь, является одним из видов синтезатора речи.

Самые ранние формы синтеза речи были реализованы с помощью машин, предназначенных для функционирования подобно человеческому голосовому тракту. Говорящая машина, созданная Вольфгангом фон Кемпеленом в 1700-х годах, является примером. С помощью этого устройства, речь производилась через кухонный рев, тростник волынки и кларнет. Кухонный сильфон был разработан, чтобы действовать как легкое, в то время как голосовая щель (область голосовых связок) была представлена ​​через тростник волынки. Колокол кларнета служил ртом.

Эксплуатация устройства была полностью ручной. Правая рука контролировала ряд рычагов, в то время как левая рука управляла звонком кларнета (ртом). Была также возможность подключить «ноздри» для создания менее носового звука. В любом случае, до тех пор, пока основные элементы управления использовались должным образом, машина получала поток воздуха. Этот воздушный поток определил типы звуков, которые будут издаваться.

Последующие говорящие машины в течение 18 и 19 веков поддерживали эту настройку, хотя были улучшения. Например, в конце 1800-х годов Джозеф Фабер создал говорящий аппарат, который мог получать ввод с клавиатуры и педали. Машина также была очень креативной, поскольку звук исходил через искусственное «лицо».

Когда наступил 20-й век, инновации в электронике позволили синтезу речи принять еще более мощное направление. Хотя предпосылки имитации человеческого голосового тракта были все те же, говорящие машины начала 20-го века могли производить более качественные звуки, поскольку входные данные были более точными.

Однако только после появления компьютеров синтез речи можно было использовать за пределами сферы развлечений. Это происходит главным образом потому, что синтезаторы речи могут храниться в программном обеспечении, а не на отдельной машине. Кроме того, с помощью компьютеров синтез речи может принимать другую форму; используя человеческие голоса в качестве основного источника звука.

Эта форма синтеза речи известна как конкатенация. Процесс работает путем подключения различных записей человеческой речи. Получающийся звук намного более естественен и приятен для слуха. Это в отличие от программ, использующих артикуляционный синтез, где речь реплицируется с помощью компьютеризированной модели голосового тракта.

Коммерческие синтезаторы речи могут использовать конкатенационные или артикуляционные методы, но оба способны достичь одной и той же цели; возможность дать людям возможность услышать текст. Это особенно полезно в ситуациях, когда чтение навязчиво или невозможно.

В деловом мире такие ситуации очень распространены, особенно для телефонных транзакций. Без альтернативы преобразования текста в речь (TTS) владельцы бизнеса должны были бы тратить деньги, нанимая еще больше сотрудников по обслуживанию клиентов. Синтезированные решения позволяют избежать этой проблемы, поскольку все делается с помощью компьютера; не человек.

Синтезированная речь также играет роль в повседневной жизни, особенно для людей с ограниченными возможностями. Говорящие часы, словари и другие устройства могут упростить задачу людям, которые плохо видят или читают. Синтезированная речь может даже дать голос людям, которые вообще не могут говорить. Стивен Хокинг, известный физик, является ярким примером. Поскольку болезнь Лу Герига сделала его немым, Хокинг использует синтезатор голоса для общения с людьми.

Есть также приложения TTS, чтобы помочь людям с различными компьютерными действиями. Чтобы получить приложения такого типа, большинству пользователей придется покупать отдельное программное обеспечение или загружать исправления. Последний вариант обычно бесплатный, в зависимости от используемой операционной системы или программы обработки текста. Однако, если человек решит купить отдельное программное обеспечение, он может получить доступ к более качественной системе. Конкретные примеры можно увидеть через Natural Reader 7 и Text Aloud 2.

В конечном счете, синтез речи - это технология, которая произвела революцию в том, как общается человечество. В некотором смысле это дает тексту собственную жизнь. Это также дает миру возможность услышать мысли блестящих людей, которые обычно были бы безмолвны.