Che cos'è la deduplicazione?

La deduplicazione è un processo utilizzato per eliminare i dati ridondanti. Durante il processo, il disco rigido di un computer viene sottoposto a scansione per grandi sequenze di dati attraverso finestre di confronto. Durante la scansione di dati duplicati, in genere vengono selezionate sequenze di almeno otto kilobyte. Se la sequenza viene trovata altrove nel sistema di archiviazione, viene fatto riferimento al file duplicato anziché archiviato nuovamente.

Una deduplicazione corretta può eliminare diversi kilobyte di dati su un computer, portando a evidenti vantaggi. La duplicazione dei dati occupa spazio inutile nel sistema e, quando vengono rimossi dati estranei, ciò lascia all'utente più spazio di archiviazione sul computer. Ciò consentirà al sistema di funzionare più velocemente ed efficientemente perché non è impantanato con i dati extra. Inoltre, il miglioramento della larghezza di banda è sempre più evidente quando un computer ha più spazio libero.

La deduplicazione comporta il riferimento alla grande quantità di dati nella prima posizione e l'eliminazione delle copie extra dei dati, che sono, tuttavia, indicizzate nel caso in cui fossero necessarie. Spesso, gli stessi dati esatti possono essere archiviati in un massimo di 100 posti diversi su un disco rigido. Se ciascuno occupa un megabyte di spazio, la deduplicazione ridurrà questo spazio sul disco rigido da 100 megabyte a uno solo. Il processo funziona archiviando i dati e lo spazio aggiuntivo che si ottiene è molto vantaggioso per il disco rigido di un computer.

Ulteriori vantaggi della deduplicazione includono la riduzione della quantità di spazio di backup necessaria fino al 90 percento, la riduzione dei costi quali i requisiti di alimentazione, spazio e raffreddamento, il ripristino di un livello di servizio più elevato, l'eliminazione di molti diversi tipi di errori e il recupero di dati in diversi punti diversi. Uno svantaggio della deduplicazione è che identifica i dati duplicati utilizzando funzioni di hash crittografiche, che potrebbero essere inaffidabili, e una collisione o un altro tipo di errore comporterebbe la perdita di dati. Inoltre, se la persona che ha autorizzato la procedura non è a conoscenza della riduzione di ridondanza coinvolta, l'affidabilità del computer può essere influenzata negativamente.

La deduplicazione dei dati funziona segmentando prima ogni parte di dati che viene elaborata. Ogni segmento viene identificato e confrontato con i dati già presenti nel sistema. Se i dati sono univoci, vengono archiviati su un disco. Se si tratta di un dato duplicato, viene invece creato un riferimento. La deduplicazione può essere implementata utilizzando un software chiamato Data Domain, che funziona con i dati e i sistemi di archiviazione per filtrare i dati, fare riferimento, eliminare o archiviare ogni byte, a seconda dei casi.

Che cos'è la deduplicazione?

Questo articolo è stato utile?