Vad är dubbla?
Deduplicering är en process som används för att eliminera redundanta data. Under processen skannas en dators hårddisk efter stora sekvenser av data över jämförelsefönster. När du söker efter duplikatdata väljs vanligtvis sekvenser på åtta kilobyte eller mer. Om sekvensen hittas någon annanstans på lagringssystemet hänvisas till den duplicerade filen istället för att lagras igen.
En framgångsrik deduplicering kan eliminera flera kilobyte data på en dator, vilket kan leda till uppenbara fördelar. Dataduplicering tar onödigt utrymme i systemet, och när främmande data tas bort lämnar detta användaren mer lagringsutrymme på datorn. Detta gör att systemet kan köras snabbare och mer effektivt eftersom det inte har fastnat med extra data. Dessutom är bandbreddförbättring alltid mer synlig när en dator har mer ledigt utrymme.
Deduplicering innebär att man hänvisar den stora mängden data till den första platsen och tar bort de extra kopiorna av data, som emellertid indexeras om de skulle behövas. Ofta kan samma exakta data lagras på så många som 100 olika platser på en hårddisk. Om var och en tar upp en megabyte utrymme kommer deduplicering att minska utrymmet på hårddisken från 100 megabyte till bara en. Processen fungerar genom att arkivera data, och det extra utrymme som du får är mycket fördelaktigt för en dators hårddisk.
Ytterligare fördelar med deduplicering inkluderar att minska mängden säkerhetskopieringsutrymme som behövs med så mycket som 90 procent, minska kostnader som kraft, utrymme och kylkrav, återställa en högre servicenivå, eliminera många olika typer av fel och återställa data vid flera olika poäng. En nackdel med deduplicering är att den identifierar duplikatdata med hjälp av kryptografiska hashfunktioner, som kan vara opålitliga, och en kollision eller annan typ av fel skulle resultera i dataförlust. Om den person som godkände förfarandet inte känner till den minskade redundansen kan datorns pålitlighet påverkas negativt.
Dataduplicering fungerar genom att först segmentera varje databitar som behandlas. Varje segment identifieras och jämförs med data som redan finns i systemet. Om data är unika lagras de på en disk. Om det är en dubblett data skapas en referens istället. Deduplicering kan implementeras med hjälp av mjukvara som kallas Data Domain, som fungerar med data och lagringssystem för att filtrera igenom data, referera, eliminera eller lagra varje byte, i förekommande fall.