音声認識とは何ですか?
音声認識は、2種類のコンピューターサイエンスのいずれかを参照できます。フォレンジック音声識別またはスピーチツーテキスト機能です。この記事では、後者の定義について説明します。
音声認識、またはこの場合の音声認識は、キーボードではなくデータを入力するためにオーディオ入力を利用するコンピューターテクノロジーです。 たとえば、マイクに話すと、キーボードで手動で単語を入力するのと同じ結果が得られます。簡単に言えば、音声認識ソフトウェアは、認識可能な単語またはフレーズの内部データベースで設計されています。このプログラムは、スピーチのオーディオ署名とデータベース内の対応するエントリと一致します。
スピーチをテキストに変えるのは簡単かもしれませんが、非常に難しい作業です。 問題は、単語を一緒に実行する自然な人間の傾向によって悪化した、個々の音声パターンとアクセントの実質的に無限の配列にあります。Appleの研究者によってated。シャツには「アップルが素敵なビーチを破壊するのを手伝ってくれました」と書かれています。声を出して話されたとき、Appleがスピーチを認識するのを助けたように聞こえます。
音声認識ソフトウェアのさまざまなモデルは、個人の口述から商業自動化されたコールルーティングまで、障害者やスポーツやニュースイベントの字幕まで、さまざまなアプリケーションに使用されます。各モデルの動作は異なり、独自の機能と境界を備えています。
ユーザーが特定の様式化された音声パターンを認識するためにソフトウェアを「トレーニング」する必要がある音声認識プログラムは、スピーカー依存システムと呼ばれます。個人は通常、自宅やオフィスでこれらのタイプのプログラムを使用します。電子メール、メモ、文字、データ、テキストは、マイクに話すことで入力できます。
ディスクリート音声システムと呼ばれるいくつかの音声認識システムは、ユーザーがはっきりと話すように要求し、単語を分離し、単語を分離します。 連続音声システムは、より自然な話すモードを理解するように設計されています。
離散音声認識システムは、顧客サービスのルーティングに広く使用されています。システムはスピーカーに依存しませんですが、単語やフレーズの小さなプールのみを理解しています。発信者には、通常は「はい」または「いいえ」で質問に答える選択肢が与えられます。回答を受け取った後、システムは発信者を次のレベルにエスカレートします。発信者がユニークな答えで返信した場合、自動化された応答は通常、「ごめんなさい、私はあなたを理解していませんでした。もう一度やり直してください」という質問と利用可能な答えを繰り返してください。このタイプの音声認識は、文法制約付き認識とも呼ばれます。
継続的なスピーチは、より洗練された音声認識ソフトウェアの形式であり、発信者は問題を説明したり、サービスを要求したりするために自然に話すことができます。このプログラムは、キーワードやフレーズを選択して統計するように設計されています顧客が何を望んでいるかについては、偶発的な最良の推測。話すことは、ニーズを特定する際に、声の認識を明白に支援します。このタイプのシステムには、控えめな音声システムよりもはるかに集中的なデータベースがあり、自然言語認識とも呼ばれます。
自動音声認識(ASR)は、口述のために設計された音声認識のモデルです。このソフトウェアは、言われていることを理解しようと努力していないという点で、話された言葉を識別するためだけに、以前のモデルとは異なります。英語の多くの言葉は同様に聞こえるので、間違いは簡単に行われます。ただし、Microsoftのような大企業は音声認識に投資しており、Bill Gates自身の予測は2011年までにASRを継続的なスピーチを理解しています。ASRソフトウェアはデジタル音声レコーダーでしばしば見つかります。
音声認識ソフトウェアの支配的なプレーヤーはScansoftとNuanceであり、前の会社が後者を獲得しました。小規模なプレイヤーには、Fonix Speech、Aculab、Verbioなどが含まれますIBMや前述のMicrosoftのような大企業も、このテクノロジーに投資しています。多くの人は、単にキーボードを使用するよりも、ソフトウェアをトレーニングして間違いを正しいことをトレーニングするのがもっと問題であると感じていますが、音声認識ソフトウェアがそのギャップを閉じる可能性が高い時期が来ています。スピーチを使用する差別的な能力でキーボードを増強することは、おそらく一般的になるでしょう。
音声認識ソフトウェアは、より洗練されるにつれて人気を博しています。これは、ライブオペレーターを交換して、コールを漏らし、情報を広め、注文し、その他の非常に有用な機能を実行できるビジネスで特に役立ちます。ただし、Scansoftのような有名なソフトウェア、 dragonnatulalsuallySpeaking 、IBMの viavoice など、デスクトップアプリケーションとしても支援されています。