音声合成とは何ですか?
音声合成は、人工装置を介して口頭での通信が複製されるプロセスです。 テキストをスピーチに変換するコンピューターは、1つのスピーチシンセサイザーです。
音声合成の初期の形態は、人間の声道のように機能するように設計された機械を介して実装されました。 1700年代にWolfgang von Kempelenによって作成されたスピーキングマシンは例です。 このデバイスを使用すると、スピーチは、キッチンの次のキッチン、バグパイプリード、クラリネットベルを通じて作成されました。 キッチン・ブローは肺のように動作するように設計されていましたが、声門(声帯の領域)はバグパイプリードを通して表されていました。 クラリネットベルは口として機能しました。
デバイスの操作は完全に手動でした。 右手は一連のレバーを制御し、左手はクラリネットベル(口)を操作しました。 また、「鼻孔」をプラグインするオプションもあり、それほど鼻の音を生み出しました。 いずれにせよ、基本的なコントロールが適切に使用されている限り、マシンはrecエアフロー。 この気流は、生成される音の種類を決定しました。
18世紀と19世紀を通じてその後のスピーキングマシンがこのセットアップを維持しましたが、改善がありました。 たとえば、1800年代後半に、ジョセフフェイバーは、キーボードとペダルを介して入力を受信できるスーペンメインを作成しました。 音が人工的な「顔」を通して出てきたので、マシンも非常に創造的でした。
20世紀が来たとき、エレクトロニクスの革新により、音声合成がさらに強力な方向性をとることができました。 人間の声帯を模倣するという前提はまだ同じでしたが、20世紀初頭の話す機械は、入力がより正確だったのでより良い音を生み出すことができます。
ただし、音声合成を実際にエンターテイメントアリーナの外で使用できるのは、コンピューターの出現までではありませんでした。 これは主にSPEのためですECHシンセサイザーは、別のマシンの代わりにソフトウェアに保存できます。 さらに、コンピューターが援助として、音声統合は異なる形をとることができます。音の主なソースとして人間の声を使用します。
この形式の音声合成は連結として知られています。 このプロセスは、人間のスピーチのさまざまな録音を接続することで機能します。結果として得られる音は、はるかに自然で耳にとって心地よいです。 これは、音声が声道のコンピューター化されたモデルを介して複製される調音合成を使用するプログラムとは対照的です。
商業音声シンセサイザーは、連結または調音のいずれかのいずれかを採用できますが、どちらも同じ目的を達成することができます。人々にテキストを聞く機会を与えることができること。 これは、読書が目立たない、または不可能な状況で特に役立ちます。
ビジネスの世界では、このような状況は、特に電話取引で非常に一般的です。 テキストからスピーチ(TTS)の代替案なし、ビジネス所有者は、さらに多くの顧客サービス担当者を雇うお金を費やさなければなりません。 合成されたソリューションは、すべてがコンピューターによって行われるため、この問題を回避します。人間ではありません。
合成された音声は、特に障害者の人にとっても、日常生活において役割を果たします。 時計、辞書、その他のデバイスを話すことは、見たり読んだりするのに苦労している人にとって物事を容易にすることができます。 合成されたスピーチは、まったく話すことができなかった個人に声を与えることさえできます。 有名な物理学者のスティーブン・ホーキングは顕著な例です。 Lou Gehrigの病気は彼をミュートにしたので、Hawkingは音声シンセサイザーを使用して人々とコミュニケーションを取ります。
さまざまなコンピューターアクティビティで人々を支援するのに役立つTTSアプリケーションもあります。 これらのタイプのアプリケーションを取得するには、ほとんどのユーザーが個別のソフトウェアを購入するか、パッチをダウンロードする必要があります。 後者のオプションは通常、使用されているオペレーティングシステムまたはワープロプログラムに応じて無料です。 しかし、人が個別のソフトウェアを購入することを決定した場合、高品質のシステムにアクセスできる可能性があります。 具体的な例は、Natural Reader 7とText Aloud 2を通じて見ることができます。
最終的に、音声統合は、人類がどのようにコミュニケーションするかに革命をもたらした技術です。 ある意味では、テキストにそれ自体の寿命を与えます。 また、世界に通常は無声であった華麗な個人の考えを聞く機会を与えます。