Hvad er dataduplikation?
Dataduplikering er en teknik til komprimering af data, hvor duplikatdata slettes, ved at opretholde en kopi af hver informationsenhed på et system i stedet for at lade multipler trives. De kopier, der opbevares, har referencer, der giver systemet mulighed for at hente dem. Denne teknik reducerer behovet for lagerplads og kan holde systemer kører hurtigere ud over at begrænse udgifter forbundet med datalagring. Det kan arbejde på en række måder og bruges på mange typer computersystemer.
Ved deduplikering af filniveau ser systemet efter eventuelle duplikerede filer og sletter ekstramateriale. Blokniveau-deduplikation ser på blokke af data i filer for at identificere fremmede data. Folk kan ende med fordoblede data af en lang række årsager, og ved hjælp af datatilpasning kan strømline et system, hvilket gør det lettere at bruge. Systemet kan periodisk pore gennem dataene for at kontrollere for duplikater, eliminere ekstramateriale og generere referencer til de filer, der er tilbage.
Sådanne systemer kaldes undertiden intelligente komprimeringssystemer eller lagringssystemer med én instans. Begge udtryk henviser til ideen om, at systemet fungerer intelligent til at gemme og arkivere data for at reducere belastningen på systemet. Dataduplikering kan være særlig værdifuld med store systemer, hvor data fra et antal kilder gemmes, og lageromkostninger konstant stiger, da systemet skal udvides over tid.
Disse systemer er designet til at være en del af et større system til komprimering og styring af data. Dataduplikering kan ikke beskytte systemer mod vira og fejl, og det er vigtigt at bruge tilstrækkelig antivirusbeskyttelse for at holde et system sikkert og begrænse viral kontaminering af filer, mens der også sikkerhedskopieres på et separat sted for at tackle bekymringer om datatab på grund af strømafbrydelser, skader på udstyr osv. At have dataene komprimeret før sikkerhedskopiering sparer tid og penge.
Systemer, der bruger dataduplikering i deres lager, kan køre hurtigere og mere effektivt. De vil stadig kræve periodisk udvidelse for at imødekomme nye data og for at tackle bekymringerne omkring sikkerhed, men de bør være mindre tilbøjelige til hurtigt at udfylde med duplikerede data. Dette er en særlig almindelig bekymring på e-mail-servere, hvor serveren kan gemme store mængder data for brugerne, og betydelige bidder af den kunne bestå af duplikater som de samme vedhæftede filer gentagne gange og igen; for eksempel har mange mennesker, der e-mailer fra arbejde, vedhæftede sidefødder med e-mail-ansvarsfraskrivelser og firmalogoer, og disse kan hurtigt spise serverpladsen op.