音声合成とは何ですか？

音声合成は、口頭でのコミュニケーションが人工デバイスを介して複製されるプロセスです。テキストを音声に変換するコンピューターは、音声合成装置の一種です。

音声合成の最も初期の形態は、人間の声道のように機能するように設計されたマシンを介して実装されました。 1700年代にWolfgang von Kempelenが作成したスピーキングマシンはその一例です。このデバイスを使用すると、スピーチはキッチンのベローズ、バグパイプのリード、クラリネットのベルを通して行われました。台所のふいごは肺のように機能するように設計され、声門（声帯の領域）はバグパイプのリードを通して表されました。クラリネットの鐘が口になった。

デバイスの操作は完全に手動でした。右手で一連のレバーを操作し、左手でクラリネットのベル（口）を操作しました。鼻音を少なくするために、「鼻孔」を塞ぐオプションもありました。いずれにせよ、基本的な制御が適切に使用されている限り、マシンはエアフローを受け取りました。この気流が、生成される音の種類を決定しました。

18世紀から19世紀にかけての後続の機械はこの設定を維持しましたが、改善はありました。たとえば、1800年代後半に、ジョセフフェイバーは、キーボードとペダルを介して入力を受け取ることができるスピーキングマシンを作成しました。また、人工の「顔」から音が出るため、機械も非常に創造的でした。

20世紀が到来したとき、電子機器の革新により、音声合成はさらに強力な方向に進むことができました。人間の声道を模倣するという前提は依然として同じでしたが、入力がより正確だったので、20世紀初頭の話をする機械はより良い音を生成できました。

ただし、コンピュータが登場して初めて、音声合成をエンターテインメントアリーナの外部で実際に使用できるようになりました。これは主に、音声合成装置を別のマシンではなくソフトウェアに保存できるためです。さらに、コンピューターを補助として、音声合成は別の形をとることができます。音声の主なソースとして人間の声を使用します。

この形式の音声合成は、連結として知られています。このプロセスは、人間の音声のさまざまな録音を接続することで機能します。結果として生じる音は、はるかに自然で耳に心地よいものです。これは、声道のコンピューター化されたモデルを通じて音声が複製される調音合成を使用するプログラムとは対照的です。

市販の音声シンセサイザーは、連結方式または調音方式のいずれかを使用できますが、どちらも同じ目的を達成できます。人々にテキストを聞く機会を与えることができます。これは、読書が邪魔になったり不可能な状況で特に役立ちます。

ビジネスの世界では、そのような状況は、特に電話取引の場合に非常に一般的です。テキスト読み上げ（TTS）の代替手段がなければ、事業主はさらに多くの顧客サービス担当者を雇うためにお金を費やす必要があります。合成されたソリューションは、すべてがコンピューターによって行われるため、この問題を回避します。人間ではありません。

合成されたスピーチは、特に障害のある人にとって、日常生活でも重要な役割を果たします。時計、辞書、その他のデバイスを話すと、見たり読んだりするのが困難な人にとって、物事が簡単になります。合成されたスピーチは、まったく話すことができなかった個人にも声を出すことができます。有名な物理学者であるスティーブン・ホーキングはその顕著な例です。ルーゲーリッグの病気により彼はミュートになったため、ホーキングは音声シンセサイザーを使用して人々と通信します。

さまざまなコンピューターアクティビティをサポートするTTSアプリケーションもあります。これらのタイプのアプリケーションを入手するには、ほとんどのユーザーが個別のソフトウェアを購入するか、パッチをダウンロードする必要があります。後者のオプションは、使用しているオペレーティングシステムまたはワードプロセッシングプログラムに応じて、通常無料です。ただし、別のソフトウェアを購入することを決めた場合、より高品質のシステムにアクセスできます。特定の例は、Natural Reader 7およびText Aloud 2で確認できます。

最終的に、音声合成は人類のコミュニケーション方法に革命をもたらしたテクノロジーです。ある意味では、テキストに独自の生活を与えます。また、通常は無声だったはずの素晴らしい個人の考えを聞く機会を世界に与えます。

音声合成とは何ですか？

この記事は参考になりましたか？