O que é desduplicação de dados?
A desduplicação de dados é uma técnica para compactar dados em que os dados duplicados são excluídos, mantendo uma cópia de cada unidade de informação em um sistema, em vez de permitir o crescimento de múltiplos. As cópias retidas têm referências que permitem ao sistema recuperá-las. Essa técnica reduz a necessidade de espaço de armazenamento e pode manter os sistemas funcionando mais rapidamente, além de limitar as despesas associadas ao armazenamento de dados. Ele pode funcionar de várias maneiras e é usado em muitos tipos de sistemas de computador.
Na desduplicação de dados no nível do arquivo, o sistema procura por arquivos duplicados e exclui os extras. A desduplicação no nível de bloco examina os blocos de dados nos arquivos para identificar dados estranhos. As pessoas podem acabar com dados duplicados por uma ampla variedade de razões, e o uso da desduplicação de dados pode otimizar um sistema, facilitando o uso. O sistema pode examinar periodicamente os dados para verificar se há duplicatas, eliminar extras e gerar referências para os arquivos deixados para trás.
Tais sistemas são chamados de sistemas de compactação inteligentes ou sistemas de armazenamento de instância única. Ambos os termos referenciam a ideia de que o sistema trabalha de maneira inteligente para armazenar e arquivar dados, a fim de reduzir a carga no sistema. A desduplicação de dados pode ser especialmente valiosa em sistemas grandes, onde os dados de várias fontes são armazenados e os custos de armazenamento aumentam constantemente, pois o sistema precisa ser expandido ao longo do tempo.
Esses sistemas foram projetados para fazer parte de um sistema maior de compactação e gerenciamento de dados. A desduplicação de dados não pode proteger os sistemas contra vírus e falhas, e é importante usar a proteção antivírus adequada para manter um sistema seguro e limitar a contaminação viral de arquivos, além de fazer backup em um local separado para solucionar preocupações sobre a perda de dados devido a interrupções, danos ao equipamentos e assim por diante. A compactação dos dados antes do backup economiza tempo e dinheiro.
Os sistemas que utilizam desduplicação de dados em seu armazenamento podem ser executados com mais rapidez e eficiência. Eles ainda exigirão expansão periódica para acomodar novos dados e resolver preocupações com segurança, mas devem ser menos propensos a preencher rapidamente dados duplicados. Essa é uma preocupação especialmente comum em servidores de e-mail, onde o servidor pode armazenar grandes quantidades de dados para os usuários e grandes partes deles podem consistir em duplicatas como os mesmos anexos repetidos várias vezes; por exemplo, muitas pessoas que enviam e-mails do trabalho anexam rodapés com isenções de responsabilidade por e-mail e logotipos de empresas, e isso pode consumir espaço do servidor rapidamente.