音響モデルとは?
音響モデルは本質的に、一連の印刷された単語に関連する音声のマップです。 このテクノロジは、音声認識プログラムで使用され、コンピュータが人の音声パターンを認識することを学習できるようにします。 音響モデルは、音声認識プログラムを実行するために必要な2つのメインファイルの1つです。 もう1つは言語モデルです。これは、話者が使用する可能性のある単語と音声パターンを示します。 これらのモデルは、音声ファイルの音声の詳細を音声単語のテキストと比較することで作成されます。
音声認識ソフトウェアは、人が言う言葉を認識し、書き起こし、または応答するように設計されたソフトウェアです。 多くのオペレーティングシステムは、ユーザーがオン/オフできる基本的な音声認識機能を内蔵して設計されています。 通常、オペレーティングシステムの音声認識機能により、ユーザーは自分の声を使用してコンピューターを制御し、画面に単語を入力できます。
音声認識ソフトウェアにアクセスするには、ユーザーは自分の声をコンピューターに送るためのマイクと、音声を処理するプログラムが必要です。 多くのコンピューターにはマイクが内蔵されていますが、外部ヘッドセットマイクを使用すると、音声が明瞭になり、話しながら部屋を自由に動き回ることができます。 スタンドアロンの音声認識ソフトウェアブランドには、LumenVox®、Loquendo®、およびDragon®が含まれます。
ほとんどの音声認識プログラムには、プログラムが発音の変化を認識することができる音響モデルプログラミングがあります。 彼らは話者の声の音のパターンを使用して、スピーチの単語を識別します。 多くは、ユーザーが自分の声を解釈するように設計された音響モデルの作成を支援するために作成されたセットアップソフトウェアで設計されています。 一部の高度な音声認識プログラムは、多くの場合、ごくわずかな音声情報で複数の言語を識別および解釈できます。 音声認識プログラムが高度であればあるほど、文のどこで単語が話されているかなど、コンテキストに基づいて単語を正確に解釈する可能性が高くなります。
音声認識技術を開発する研究分野は、計算言語学と呼ばれています。 計算言語学には、人間の音声を理解するようにプログラムされたソフトウェアを作成する研究と設計が含まれます。 この分野では、心理学の研究からの情報を取り入れて、音声をより正確に解釈できる音響モデルを作成します。
「音響」という言葉は一般に、音に関係するあらゆるものを指します。 音響モデルは音声認識で最もよく使用されますが、音楽でも使用できます。 音楽トラックの音響モデルは、1分あたりのビート、音楽のキー、または音楽の支配的なピッチなどのプロパティを識別できます。 この情報は、コンピュータプログラムが音楽トラックを識別するために使用したり、音楽が分類される可能性が高いジャンルを大まかに決定したりするために使用できます。 音響モデルは、心理音響学と呼ばれる研究分野でも使用されており、研究者は脳に予測可能な影響を与える音楽を構築することを学びたいと考えています。