Che cos'è la distorsione temporale dinamica?
La funzione Dynamic time warping (DTW) prevede un metodo di calcolo, chiamato algoritmo, per confrontare suoni, video e grafica che potrebbero essere simili ma i cui campioni potrebbero presentare sottili differenze. I calcoli in genere formulano una rappresentazione lineare del campione e misurano le differenze in funzione del tempo. Diversi elementi di un campione possono essere mappati su una griglia per identificare le somiglianze, mentre i comandi per le funzioni spesso usano simboli per identificare ogni variabile. Il riconoscimento vocale, ad esempio, a volte utilizza la deformazione temporale dinamica per abbinare le parole anche se pronunciate a velocità diverse o alcune parti sono pronunciate in modo diverso.
Molti programmi di riconoscimento vocale utilizzano la distorsione temporale dinamica perché le persone parlano spesso a velocità diverse. Alcuni suoni vocalici possono essere annunciati in modo diverso a seconda delle emozioni o di altri fattori. Alcuni programmi sono in grado di riconoscere le parole pronunciate, indipendentemente da chi sta parlando. Per questo motivo, di solito non è efficace sommare le distanze negli intervalli di tempo per confrontare i suoni. Con DTW, vengono analizzati vari punti specifici del tempo per ciascun segnale; queste distanze sono calcolate su una griglia che va da in basso a sinistra a in alto a destra.
Le somiglianze nelle parti corrispondenti di due campioni possono essere misurate usando la distanza di Levenshtein. Le lettere sono usate per rappresentare i cambiamenti tra una fonte e l'altra. La soluzione all'algoritmo è in genere un numero maggiore, più diversi sono i due campioni. Questo concetto viene spesso utilizzato per il riconoscimento vocale, nonché per il controllo ortografico e l'analisi del materiale genetico.
In alcune misurazioni, le variazioni di frequenza possono compensare la capacità di distorsione temporale dinamica. I segnali possono essere calcolati in modo tale che la loro forma venga utilizzata indipendentemente dalla frequenza. Anche i segnali modulati possono rappresentare un problema, ma una griglia che calcola le distanze tra i segmenti di linea anziché i punti può compensare.
L'allineamento delle sequenze è generalmente matematico e alcune competenze di programmazione informatica sono necessarie per comprenderle appieno. Gli algoritmi di distorsione temporale dinamica dipendono da alcune condizioni di base per il calcolo realistico delle differenze tra campioni audio o visivi. Considerando un campione come un percorso lungo una griglia, l'algoritmo spesso segue regole, come il percorso non può tornare indietro e che viene misurato un passo alla volta. Oltre al formato in basso a sinistra in alto a destra, le misurazioni sono limitate a posizioni vicine a una linea diagonale. I valori troppo ripidi o poco profondi vengono spesso ignorati perché possono causare errori nella misurazione finale.