スピーチシンセサイザーとは何ですか？

音声合成装置は、テキスト文字を人間の音声に近い音に変換するために使用されるデバイスです。個々のデバイスの精巧さのレベルに応じて、生成される音は、いくぶん音を立てて人工的に聞こえるか、実際の人の声に非常に似た音になります。音声合成の概念は何世紀にもわたって存在していましたが、一般の人々が利用できるようになったのは最近の数十年だけです。

11世紀に遡る人間の音声パターンを人工的に生成する試みの例があります。最も初期の試みでは、材料を使用して人間の声帯を複製し、さまざまな種類の刺激を加えて音を出していました。時間が経つにつれて、デザインは母音の発音を模倣した音を生成することを可能にしました。 18世紀後半には、いくつかのデザインでも子音によく似たサウンドを生成できました。

現代の音声合成装置の真の進歩は、1930年代に始まりました。ベル研究所は、ボコーダーと呼ばれるシンセサイザーを製作しました。データはキーボードを使用して入力され、システムによって分析され、単語を形成するために適切な音が発せられました。単語のイントネーションと語形変化はやや原始的でしたが、このデバイスは明確に理解可能な単語を生成しました。このデバイスの洗練されたバージョンであるvoderは、1939年の世界博覧会で一般に紹介されました。

1950年代までに、視覚的画像と入力されたテキストを使用して部分的に成功した結果を生成する音声シンセサイザーの研究。同時に、技術の進歩により音質が改善され始めました。 1970年代に自動音声通信が普及する頃には、人間の音声パターンに非常に近い音を生成できる音声シンセサイザーがいくつかありました。短期間で、このデバイスは留守番電話に録音済みのメッセージや視覚障害のある人向けの製品を読むなどの製品を生産するために使用されていました。

パーソナルコンピュータの出現は、音声合成装置のさらなる改良への扉を開いた。このデバイスを家庭用コンピューターシステムに組み込むことで、読書障害または視覚障害のある人は、さまざまなコンピュータープログラムを使用して楽しむことができます。今日、スピーチシンセサイザーのほとんどのモデルの音声品質は、20世紀初頭に作成されたデバイスによって生成されるロボットの音からはるかに離れています。今日の多くのバージョンは、人間の音声とほとんど区別できない音声パターンを生成できます。

スピーチシンセサイザーとは何ですか？

この記事は参考になりましたか？