Hva er deduplisering?

Deduplikasjon er en prosess som brukes for å eliminere overflødige data. Under prosessen blir datamaskinens harddisk skannet etter store sekvenser med data på tvers av sammenligningsvinduer. Mens du søker etter duplikatdata, blir det typisk plukket ut sekvenser på åtte kilobyte eller mer. Hvis sekvensen finnes andre steder på lagringssystemet, blir det referert til den dupliserte filen istedenfor lagret igjen.

En vellykket deduplisering kan eliminere flere kilobyte data på en datamaskin, og føre til åpenbare fordeler. Dataduplisering tar unødvendig plass i systemet, og når fremmede data fjernes, etterlater dette brukeren mer lagringsplass på datamaskinen. Dette vil tillate at systemet kjører raskere og mer effektivt fordi det ikke er fast i de ekstra dataene. I tillegg er forbedring av båndbredde alltid mer merkbar når en datamaskin har mer ledig plass.

Deduplisering innebærer å henvise den store datamengden til det første stedet og slette de ekstra kopiene av dataene, som imidlertid indekseres i tilfelle de skulle trenge det. Ofte kan de samme nøyaktige dataene lagres på så mange som 100 forskjellige steder på en harddisk. Hvis hver tar en megabyte plass, vil deduplisering redusere denne plassen på harddisken fra 100 megabyte til bare en. Prosessen fungerer ved å arkivere dataene, og den ekstra plassen som oppnås er svært gunstig for datamaskinens harddisk.

Ytterligere fordeler med deduplisering inkluderer å redusere mengden sikkerhetskopieringsplass som trengs med så mye som 90 prosent, redusere kostnader som strøm, plass og kjølebehov, gjenopprette et høyere servicenivå, eliminere mange forskjellige typer feil og gjenopprette data på flere forskjellige punkter. En ulempe med deduplisering er at den identifiserer duplikatdataene ved bruk av kryptografiske hasjfunksjoner, som kan være upålitelige, og en kollisjon eller annen type feil vil føre til tap av data. Hvis personen som godkjente prosedyren, ikke er klar over reduksjonen av redundans, kan datamaskinens pålitelighet bli påvirket negativt.

Dataduplikasjon fungerer ved først å segmentere hvert stykke data som behandles. Hvert segment identifiseres og sammenlignes med data som allerede er i systemet. Hvis dataene er unike, lagres de på en disk. Hvis det er et duplikat stykke data, opprettes en referanse i stedet. Deduplisering kan implementeres ved hjelp av programvare kalt Data Domain, som fungerer med data og lagringssystemer for å filtrere gjennom data, referere, eliminere eller lagre hver byte, etter behov.

Hva er deduplisering?

Hjalp denne artikkelen deg?