動的タイムワーピングとは

動的タイムワーピング(DTW)には、アルゴリズムと呼ばれる計算方法が含まれ、サウンド、ビデオ、グラフィックは類似しているがサンプルには微妙な違いがある場合があります。 通常、計算ではサンプルの線形表現を定式化し、時間の関数として差を測定します。 サンプルのさまざまな要素をグリッドにマッピングして類似性を識別できますが、関数のコマンドは多くの場合シンボルを使用して各変数を識別します。 たとえば、音声認識では、異なる速度で話されたり、特定の部分の発音が異なる場合でも、動的なタイムワーピングを使用して単語を一致させることがあります。

多くの音声認識プログラムは、人々がしばしば異なる速度で話すため、動的なタイムワーピングを使用しています。 特定の母音は、感情やその他の要因に応じて異なる方法で発音される場合があります。 一部のプログラムは、誰が話しているかに関係なく、話されている言葉を認識できます。 このため、通常、音を比較するために時間間隔で距離を合計することは効果的ではありません。 DTWでは、各信号のさまざまな時間固有のポイントが分析されます。 これらの距離は、左下から右上に伸びるグリッド上で計算されます。

2つのサンプルの対応する部分の類似性は、レーベンシュタイン距離を使用して測定できます。 文字は、あるソースと別のソースとの間の変更を表すために使用されます。 アルゴリズムの解決策は通常、2つのサンプルが異なるほど大きな数になります。 この概念は、音声認識だけでなく、スペルチェックや遺伝物質の分析にもよく使用されます。

一部の測定では、周波数の変化が動的なタイムワーピングの能力を相殺する可能性があります。 信号は、周波数に関係なくその形式が使用されるように計算できます。 変調された信号も問題を引き起こす可能性がありますが、ポイントの代わりにラインセグメント間の距離を計算するグリッドで補正できます。

シーケンスのアライメントは一般に数学的であり、それを完全に理解するにはいくつかのコンピュータープログラミングスキルが必要です。 ダイナミックタイムワーピングアルゴリズムは、オーディオサンプルとビジュアルサンプルの違いを現実的に計算するためのいくつかの基本条件に依存します。 サンプルをグリッドに沿ったパスとみなすと、アルゴリズムは多くの場合、パスが元に戻せず、一度に1ステップずつ測定されるなどのルールに従います。 左下から右上の形式に加えて、測定は対角線に近い位置に制限されます。 急すぎたり浅すぎたりする値は、最終測定でエラーを引き起こす可能性があるため、しばしば無視されます。

他の言語

この記事は参考になりましたか? フィードバックをお寄せいただきありがとうございます フィードバックをお寄せいただきありがとうございます

どのように我々は助けることができます? どのように我々は助けることができます?