Che cos'è la deduplicazione dei dati?
La deduplicazione dei dati è una tecnica per comprimere i dati in cui i dati duplicati vengono eliminati, mantenendo una copia di ciascuna unità di informazioni su un sistema anziché consentire ai multipli di prosperare. Le copie conservate hanno riferimenti che consentono al sistema di recuperarle. Questa tecnica riduce la necessità di spazio di archiviazione e può far funzionare i sistemi più velocemente oltre a limitare le spese associate alla memorizzazione dei dati. Può funzionare in diversi modi e viene utilizzato su molti tipi di sistemi informatici.
Nella deduplicazione dei dati a livello di file, il sistema cerca eventuali file duplicati ed elimina gli extra. La deduplicazione a livello di blocco esamina i blocchi di dati all'interno dei file per identificare dati estranei. Le persone possono finire con dati raddoppiati per una vasta gamma di motivi e l'uso della deduplicazione dei dati può semplificare un sistema, rendendolo più facile da usare. Il sistema può periodicamente analizzare i dati per verificare la presenza di duplicati, eliminare gli extra e generare riferimenti per i file lasciati indietro.
Tali sistemi vengono talvolta definiti sistemi di compressione intelligenti o sistemi di archiviazione a istanza singola. Entrambi i termini fanno riferimento all'idea che il sistema funzioni in modo intelligente per archiviare e archiviare i dati al fine di ridurre il carico sul sistema. La deduplicazione dei dati può essere particolarmente preziosa con sistemi di grandi dimensioni in cui sono archiviati dati provenienti da diverse fonti e i costi di archiviazione sono costantemente in aumento, poiché il sistema deve essere ampliato nel tempo.
Questi sistemi sono progettati per far parte di un sistema più ampio per la compressione e la gestione dei dati. La deduplicazione dei dati non può proteggere i sistemi da virus e guasti ed è importante utilizzare un'adeguata protezione antivirus per mantenere un sistema sicuro e limitare la contaminazione virale dei file, eseguendo al contempo il backup in una posizione separata per rispondere alle preoccupazioni sulla perdita di dati a causa di interruzioni, danni a attrezzature e così via. La compressione dei dati prima del backup consente di risparmiare tempo e denaro.
I sistemi che utilizzano la deduplicazione dei dati nella loro memoria possono funzionare in modo più rapido ed efficiente. Richiederanno comunque un'espansione periodica per accogliere nuovi dati e rispondere alle preoccupazioni sulla sicurezza, ma dovrebbero essere meno inclini a riempire rapidamente con dati duplicati. Questa è una preoccupazione particolarmente comune sui server di posta elettronica, in cui il server può archiviare grandi quantità di dati per gli utenti e blocchi significativi di esso potrebbero consistere in duplicati come gli stessi allegati ripetuti più e più volte; ad esempio, molte persone che inviano e-mail dal lavoro hanno allegati piè di pagina con dichiarazioni di non responsabilità e loghi aziendali, che possono occupare rapidamente spazio sul server.