異なる音声認識技術とは何ですか?

いくつかの音声認識技術を使用して、話し言葉をキャプチャし、それらをソフトウェアプログラムで使用できるデータに変換します。 発言内容を判断するために、スピーチを分析する方法は3つあります。 1つ目は離散音声と呼ばれ、一度に1つの単語のみが話されます。 2番目は接続された音声として知られており、単語を理解するには特定の方法で話さなければなりません。 最後に、連続的なスピーチがあります。これは、ほとんどの人が通常話す方法です。

すべての種類の音声認識技術に使用される最も一般的なアルゴリズムは、隠れマルコフモデル(HMM)です。 このシステムには、音素、または基本的な音と音節の大きなデータツリーが含まれており、これらは、ある音が別の音に続く統計的確率で除算されます。 各音素を音のデータツリー内のノードと比較することにより、実際に完成した単語を、比較的短時間で高い精度で決定できます。

一部の音声認識技術で克服するのが難しい問題の1つは、単語の始まりと終わりを分離することです。 このタスクは、部屋のバックグラウンドノイズと、一部の音節には単語間の区切りに似たオーディオ署名があるという事実によって複雑になります。 このため、個別の接続された音声認識技術が最も正確です。

異なる音声認識技術を分離するもう1つの要因は、ソフトウェアの語彙の問題です。 音声を解釈するソフトウェアは、非常に限られた高い精度の語彙、または特定のユーザーの個々の音声パターンに一致する必要がある大きな語彙のいずれかを使用できます。 プログラムが単語を組み立てるHMMメソッドを使用する場合、理解される単語の数が少ないほど、プログラムはより正確になります。 これは、ほとんどの自動電話システムが番号または質問への応答を解読するために使用する方法です。

大規模な語彙を理解する音声認識技術は通常、ごく少数のユーザーまたは1人のユーザーとのみ対話するように設計されています。 これは、話す人の発話パターンを理解するようにプログラムをトレーニングする必要があるためです。 トレーニングでは、あらかじめ作成されたテキストの段落をソフトウェアに読み上げます。 読み取られている単語は既知であるため、プログラムはユーザー固有の音素の統計モデルを構築できます。 これにより、プログラムはユーザーを理解する可能性がはるかに高くなりますが、トレーニングを受けていない人のプログラムの理解を妨げる可能性もあります。

音声認識技術の中で最も難しいのは、連続音声または自然音声を解釈することです。 多くの人々は言葉を一緒に走らせて異なる速度で話す傾向があるため、連続的な音声を翻訳するプログラムの精度は他の方法よりも低くなります。 それでも、このタイプの音声を翻訳できるプログラムが存在します。その一部は、ファジーロジックとニューラルネットワークを使用して、パターンの認識と単語の分離を支援します。

他の言語

この記事は参考になりましたか? フィードバックをお寄せいただきありがとうございます フィードバックをお寄せいただきありがとうございます

どのように我々は助けることができます? どのように我々は助けることができます?