Hvad er deduplikation?

Deduplikation er en proces der bruges til at eliminere overflødige data. Under processen scannes en computers harddisk efter store sekvenser af data på tværs af sammenligningsvinduer. Mens der scannes efter duplikatdata, udvælges typisk sekvenser på otte kilobytes eller mere. Hvis sekvensen findes andre steder på lagringssystemet, henvises der til den duplikerede fil i stedet for at blive gemt igen.

En vellykket deduplikering kan eliminere flere kilobyte data på en computer, hvilket kan føre til åbenlyse fordele. Dataduplicering optager unødvendigt plads i systemet, og når fremmede data fjernes, giver dette brugeren mere lagerplads på computeren. Dette tillader systemet at køre hurtigere og mere effektivt, fordi det ikke er klemt med de ekstra data. Derudover er båndbreddeforbedring altid mere mærkbar, når en computer har mere ledig plads.

Deduplikation involverer henvisning af den store mængde data til den første placering og sletning af de ekstra kopier af dataene, som dog indekseres, hvis de skulle være nødvendige. Ofte kan de samme nøjagtige data gemmes så mange som 100 forskellige steder på en harddisk. Hvis hver optager en megabyte plads, reducerer deduplikering denne plads på harddisken fra 100 megabyte til kun en. Processen fungerer ved at arkivere dataene, og den ekstra plads, der opnås, er meget fordelagtig for en computers harddisk.

Yderligere fordele ved deduplikering inkluderer reduktion af mængden af sikkerhedskopieret plads med op til 90 procent, reduktion af omkostninger som strøm, plads og kølingskrav, gendannelse af et højere serviceniveau, eliminering af mange forskellige slags fejl og gendannelse af data på flere forskellige punkter. En ulempe ved deduplikering er, at den identificerer duplikatdataene ved hjælp af kryptografiske hashfunktioner, som kan være upålidelige, og en kollision eller anden type fejl ville resultere i tab af data. Hvis den person, der godkendte proceduren, ikke er opmærksom på den involverede redundansreduktion, kan computerens pålidelighed blive påvirket negativt.

Dataduplikation fungerer ved først at segmentere hvert stykke data, der behandles. Hvert segment identificeres og sammenlignes med data, der allerede findes i systemet. Hvis dataene er unikke, gemmes de på en disk. Hvis det er et duplikat stykke data, oprettes en reference i stedet. Deduplikation kan implementeres ved hjælp af software kaldet Data Domain, som fungerer med data og lagringssystemer til at filtrere gennem data, henvise til, eliminere eller lagre hver byte, alt efter hvad der er relevant.

Hvad er deduplikation?

Hjalp denne artikel dig?