Qu'est-ce que la déduplication?
La déduplication est un processus utilisé pour éliminer les données redondantes. Pendant le processus, le disque dur d'un ordinateur est analysé pour rechercher de grandes séquences de données sur plusieurs fenêtres de comparaison. Lors de la recherche de données en double, des séquences de huit kilo-octets ou plus sont généralement sélectionnées. Si la séquence est trouvée ailleurs sur le système de stockage, le fichier dupliqué est référencé plutôt que stocké à nouveau.
Une déduplication réussie peut éliminer plusieurs kilo-octets de données sur un ordinateur, offrant ainsi des avantages évidents. La duplication de données occupe une place inutile dans le système. Lorsque l'utilisateur supprime des données superflues, l'utilisateur dispose de plus d'espace de stockage sur son ordinateur. Cela permettra au système de fonctionner plus rapidement et plus efficacement, car les données supplémentaires ne l’entraînent pas. De plus, l'amélioration de la bande passante est toujours plus visible lorsqu'un ordinateur dispose de plus d'espace libre.
La déduplication implique de référencer la grande quantité de données vers le premier emplacement et de supprimer les copies supplémentaires des données, qui sont toutefois indexées au cas où elles seraient nécessaires. Souvent, les mêmes données exactes peuvent être stockées dans un maximum de 100 endroits différents sur un disque dur. Si chacun occupe un mégaoctet d'espace, la déduplication réduira cet espace sur le disque dur de 100 mégaoctets à un seul. Le processus fonctionne en archivant les données et l’espace supplémentaire gagné est très bénéfique pour le disque dur de l’ordinateur.
Les avantages supplémentaires de la déduplication sont notamment la réduction de 90% de l'espace de sauvegarde nécessaire, des coûts tels que les besoins en énergie, en espace et en refroidissement, la restauration d'un niveau de service supérieur, l'élimination de nombreux types d'erreurs et la récupération de données à plusieurs reprises. points différents. La déduplication a pour inconvénient d’identifier les données en double à l’aide de fonctions de hachage cryptographiques, qui peuvent ne pas être fiables, et une collision ou un autre type d’erreur entraînerait la perte de données. De plus, si la personne qui a autorisé la procédure n'est pas au courant de la réduction de redondance impliquée, la fiabilité de l'ordinateur peut en être affectée.
La déduplication des données consiste à segmenter d’abord chaque élément de données traité. Chaque segment est identifié et comparé aux données déjà présentes dans le système. Si les données sont uniques, elles sont stockées sur un disque. S'il s'agit d'un duplicata de données, une référence est créée à la place. La déduplication peut être mise en œuvre à l'aide d'un logiciel appelé Data Domain, qui fonctionne avec les systèmes de données et de stockage pour filtrer les données, référencer, éliminer ou stocker chaque octet, selon le cas.