Skip to main content

Что такое акустическая модель?

Акустическая модель - это, по сути, карта голоса по отношению к серии напечатанных слов. Эта технология используется в программах распознавания речи, чтобы помочь компьютеру научиться распознавать речевые шаблоны человека. Акустическая модель - это один из двух основных файлов, необходимых для запуска программы распознавания речи; другая - языковая модель, которая указывает вероятные слова и образцы речи, которые может использовать говорящий. Эти модели создаются путем сравнения деталей звука из произнесенного аудиофайла с текстом произнесенных слов.

Программное обеспечение для распознавания речи - это программное обеспечение, предназначенное для распознавания и расшифровки или ответа на слова, которые произносит человек. Многие операционные системы имеют встроенные базовые возможности распознавания речи, которые пользователь может включать и выключать. Возможности распознавания речи в операционных системах обычно дают пользователю возможность управлять компьютером и набирать слова на экране с помощью своего голоса.

Для доступа к программному обеспечению для распознавания речи пользователю необходим микрофон для передачи голоса на компьютер, а также программа для обработки звука. Хотя во многих компьютерах есть встроенные микрофоны, внешний микрофон гарнитуры позволяет пользователю получить более четкое звучание голоса и свободу передвижения по комнате во время разговора. Автономные бренды программного обеспечения для распознавания речи включают LumenVox®, Loquendo® и Dragon®.

Большинство программ распознавания речи имеют программирование акустической модели, которое позволяет программе распознавать изменения в произношении. Они используют образцы в звуке голоса говорящего, чтобы идентифицировать слова в речи. Многие из них разработаны с помощью программного обеспечения для настройки, созданного, чтобы помочь пользователю создать акустическую модель, предназначенную для интерпретации ее собственного голоса. Некоторые передовые программы распознавания речи могут идентифицировать и интерпретировать несколько языков, часто с небольшим количеством звуковой информации. Чем более продвинута программа распознавания речи, тем больше вероятность того, что она будет точно интерпретировать слова в зависимости от ее контекста, в том числе в том месте, где в предложении произнесено слово.

Область исследования, которая развивает технологию распознавания речи, называется компьютерной лингвистикой. Компьютерная лингвистика включает в себя изучение и проектирование, которое создает программное обеспечение, запрограммированное для понимания человеческой речи. Эта область часто включает информацию из изучения психологии для создания акустических моделей, которые могут более точно интерпретировать речь.

Слово «акустический» обычно относится ко всему, что связано со звуком. Хотя акустические модели чаще всего используются в распознавании речи, они также могут быть использованы в музыке. Акустическая модель музыкальной дорожки может определять свойства, такие как удары в минуту, музыкальные клавиши или доминирующие высоты в музыке. Эта информация может использоваться компьютерной программой для идентификации музыкальной дорожки, или она может использоваться для свободного определения жанра, в котором музыка, вероятно, относится к категории. Акустические модели также используются в области исследований, называемой психоакустикой, в которой исследователи надеются научиться структурировать музыку, которая предсказуемо влияет на мозг.