O que é desduplicação?
A desduplicação é um processo usado para eliminar dados redundantes. Durante o processo, o disco rígido de um computador é verificado em busca de grandes seqüências de dados nas janelas de comparação. Durante a verificação de dados duplicados, sequências de oito kilobytes ou mais geralmente são selecionadas. Se a sequência for encontrada em outro local do sistema de armazenamento, o arquivo duplicado será referenciado em vez de armazenado novamente.
Uma desduplicação bem-sucedida pode eliminar vários kilobytes de dados em um computador, levando a benefícios óbvios. A duplicação de dados ocupa espaço desnecessário no sistema e, quando dados estranhos são removidos, isso deixa o usuário com mais espaço de armazenamento no computador. Isso permitirá que o sistema funcione de forma mais rápida e eficiente, porque não está sobrecarregado com os dados extras. Além disso, a melhoria da largura de banda é sempre mais perceptível quando um computador tem mais espaço livre.
A desduplicação envolve referenciar a grande quantidade de dados no primeiro local e excluir as cópias extras dos dados, que são, no entanto, indexados, caso sejam necessários. Freqüentemente, os mesmos dados exatos podem ser armazenados em até 100 locais diferentes no disco rígido. Se cada um ocupar um megabyte de espaço, a desduplicação reduzirá esse espaço no disco rígido de 100 megabytes para apenas um. O processo funciona arquivando os dados e o espaço adicional ganho é muito benéfico para o disco rígido de um computador.
Os benefícios adicionais da desduplicação incluem reduzir a quantidade de espaço de backup necessário em até 90%, reduzir custos como requisitos de energia, espaço e refrigeração, restaurar um nível mais alto de serviço, eliminar muitos tipos diferentes de erros e recuperar dados em vários pontos diferentes. Uma desvantagem da desduplicação é que ela identifica os dados duplicados usando funções hash criptográficas, que podem não ser confiáveis, e uma colisão ou outro tipo de erro resultaria na perda de dados. Além disso, se a pessoa que autorizou o procedimento não estiver ciente da redução de redundância envolvida, a confiabilidade do computador poderá ser afetada adversamente.
A desduplicação de dados funciona primeiro segmentando cada parte dos dados processados. Cada segmento é identificado e comparado aos dados que já estão no sistema. Se os dados forem exclusivos, eles serão armazenados em um disco. Se for um dado duplicado, uma referência será criada. A desduplicação pode ser implementada usando o software Data Domain, que trabalha com sistemas de dados e armazenamento para filtrar dados, referenciar, eliminar ou armazenar cada byte, conforme apropriado.