O que é distorção dinâmica do tempo?

A distorção dinâmica do tempo (DTW) envolve um método de cálculo, chamado algoritmo, para comparar sons, vídeos e gráficos que podem ser semelhantes, mas amostras dos quais podem ter diferenças sutis. Os cálculos normalmente formulam uma representação linear da amostra e medem as diferenças em função do tempo. Diferentes elementos de uma amostra podem ser mapeados em uma grade para identificar semelhanças, enquanto comandos para funções geralmente usam símbolos para identificar cada variável. O reconhecimento de fala, por exemplo, às vezes usa distorção dinâmica do tempo para corresponder às palavras, mesmo que sejam faladas em velocidades diferentes ou que determinadas partes sejam pronunciadas de maneira diferente.

Muitos programas de reconhecimento de fala usam distorção dinâmica do tempo, porque as pessoas costumam falar em taxas diferentes. Certos sons de vogais podem ser anunciados de maneira diferente, dependendo das emoções ou de outros fatores. Alguns programas podem reconhecer as palavras faladas, não importa quem esteja falando. Por esse motivo, geralmente não é eficaz somar as distâncias em intervalos de tempo para comparar sons. Com o DTW, vários pontos específicos de tempo para cada sinal são analisados; essas distâncias são calculadas em uma grade que vai do canto inferior esquerdo para o canto superior direito.

As semelhanças nas partes correspondentes de duas amostras podem ser medidas usando a distância de Levenshtein. As letras são usadas para representar as alterações entre uma fonte e outra. A solução para o algoritmo geralmente é um número maior, quanto mais diferentes são as duas amostras. Esse conceito é frequentemente usado para reconhecimento de fala, bem como verificação ortográfica e análise de material genético.

Em algumas medições, as mudanças de frequência podem compensar a capacidade de distorção dinâmica do tempo. Os sinais podem ser calculados de forma que sua forma seja usada independentemente da frequência. Sinais modulados também podem representar um problema, mas uma grade que calcula distâncias entre segmentos de linha em vez de pontos pode compensar.

O alinhamento de sequência é geralmente matemático e são necessárias algumas habilidades de programação de computadores para entendê-lo completamente. Os algoritmos de distorção dinâmica do tempo dependem de algumas condições básicas para calcular realisticamente as diferenças entre amostras de áudio ou visuais. Considerando uma amostra como um caminho ao longo de uma grade, o algoritmo geralmente segue regras, como o caminho não pode voltar atrás e que é medido uma etapa de cada vez. Além do formato do canto inferior esquerdo para o canto superior direito, as medidas são limitadas a locais próximos a uma linha diagonal. Valores muito íngremes ou rasos geralmente são desconsiderados, pois podem causar erros na medição final.

OUTRAS LÍNGUAS

Este artigo foi útil? Obrigado pelo feedback Obrigado pelo feedback

Como podemos ajudar? Como podemos ajudar?