音声認識とは何ですか?

音声認識とは、法医学的な音声識別または音声読み上げ機能の2種類のコンピューターサイエンスのいずれかを指します。 この記事では後者の定義について説明します。

音声認識、またはこの場合の音声認識は、キーボードではなく音声入力を使用してデータを入力するコンピューター技術です。 たとえば、マイクに向かって話すと、キーボードで手動で単語を入力するのと同じ結果が得られます。 簡単に言えば、音声認識ソフトウェアは、認識可能な単語またはフレーズの内部データベースを使用して設計されています。 このプログラムは、音声の音声署名をデータベース内の対応するエントリと照合します。

音声をテキストに変換することは簡単に聞こえるかもしれませんが、それは非常に難しい作業です。 問題は、個々の音声パターンとアクセントの事実上無限の配列にあり、言葉を一緒に実行する人間の自然な傾向によって悪化します。

Appleの研究者が作成したTシャツには、音声認識ソフトウェアに固有の課題の図が表示されます。 シャツには、「Appleが素晴らしいビーチを破壊するのを手伝った」と書かれています。 声に出して話すと、 Appleが音声を認識できるように聞こえます。

音声認識ソフトウェアのさまざまなモデルが、個人の口述から商用の自動コールルーティング、障害者の支援からスポーツやニュースイベントの字幕作成まで、さまざまなアプリケーションに使用されています。 各モデルの動作は異なり、独自の機能と境界があります。

音声の特定の定型化されたパターンを認識するためにソフトウェアを「トレーニング」する必要がある音声認識プログラムは、 話者依存システムと呼ばれます。 個人は通常、これらの種類のプログラムを自宅またはオフィスで使用します。 メール、メモ、手紙、データ、テキストは、マイクに向かって話すことで入力できます。

個別の音声システムと呼ばれる一部の音声認識システムでは、ユーザーがはっきりとゆっくりと話し、単語を分離する必要があります。 連続音声システムは、より自然な発話モードを理解するように設計されています。

個別の音声音声認識システムは、顧客サービスのルーティングに広く使用されています。 システムは話者に依存しませんが、単語またはフレーズの小さなプールのみを理解します。 発信者には、通常「はい」または「いいえ」で質問に答える選択肢が与えられます。 応答を受信した後、システムは発信者を次のレベルにエスカレートします。 発信者が一意の回答で返信する場合、自動応答は通常「ごめん、わかりませんでした。もう一度やり直してください」という質問と回答を繰り返します。 このタイプの音声認識は、 文法制約認識とも呼ばれます。

連続音声は、音声認識ソフトウェアのより洗練された形式であり、発信者は問題を説明したりサービスを要求するために自然に話すことができます。 このプログラムは、キーワードやフレーズを選び出し、顧客が望むものについて統計的に最良の推測をするように設計されています。 話すことは、必要性を識別する際に音声認識を明らかに助けます。 このタイプのシステムには、控えめな音声システムよりもはるかに集中的なデータベースがあり、 自然言語認識とも呼ばれます。

自動音声認識(ASR)は、ディクテーション用に設計された音声認識のモデルです。 このソフトウェアは、話されている言葉を識別するためだけに、言われていることを理解しようとしないという点で、以前のモデルとは異なります。 英語の多くの単語は同じように聞こえるので、間違いは簡単に犯されます。 ただし、Microsoftなどの主要企業は音声認識に投資しており、Bill Gates自身の予測では、ASRは2011年までに連続的な音声を理解しています。ASRソフトウェアはデジタルボイスレコーダーでよく見られます。

音声認識ソフトウェアの主要なプレーヤーはScanSoftとNuanceであり、前者は後者を買収しています。 小規模なプレーヤーには、特にFonix Speech、Aculab、Verbioなどがあり、IBMや前述のMicrosoftなどの大企業もこのテクノロジーに投資しています。 多くの人は、単にキーボードを使用するよりもソフトウェアを訓練して間違いを修正するのが難しいと感じていますが、音声認識ソフトウェアがそのギャップを埋める時が来ています。 スピーチを使用する識別能力を備えたキーボードの拡張は、おそらく一般的になります。

音声認識ソフトウェアは、より洗練されるにつれて人気を集めています。 ライブオペレーターの代わりに電話をかけたり、情報を広めたり、注文したり、その他の非常に便利な機能を実行したりするビジネスで特に役立ちます。 ただし、ScanSoft、 DragonNaturallySpeaking 、IBMのViaVoiceなどの有名なソフトウェアの助けを借りて、デスクトップアプリケーションとしても支持されています。

他の言語

この記事は参考になりましたか? フィードバックをお寄せいただきありがとうございます フィードバックをお寄せいただきありがとうございます

どのように我々は助けることができます? どのように我々は助けることができます?