Co to jest deduplikacja?
Deduplikacja to proces służący do eliminacji zbędnych danych. Podczas tego procesu dysk twardy komputera jest skanowany w poszukiwaniu dużych sekwencji danych w oknach porównawczych. Podczas skanowania w poszukiwaniu zduplikowanych danych zwykle wybierane są sekwencje o wielkości ośmiu kilobajtów lub więcej. Jeśli sekwencja zostanie znaleziona w innym miejscu w systemie pamięci masowej, do powielonego pliku zostanie odwołane, a nie zapisane ponownie.
Pomyślna deduplikacja może wyeliminować kilka kilobajtów danych na komputerze, co prowadzi do oczywistych korzyści. Powielanie danych zajmuje niepotrzebne miejsce w systemie, a po usunięciu obcych danych pozostawia użytkownikowi więcej miejsca do przechowywania na komputerze. Pozwoli to systemowi działać szybciej i wydajniej, ponieważ nie jest obciążony dodatkowymi danymi. Ponadto poprawa przepustowości jest zawsze bardziej zauważalna, gdy komputer ma więcej wolnego miejsca.
Deduplikacja obejmuje odniesienie dużej ilości danych do pierwszej lokalizacji i usunięcie dodatkowych kopii danych, które są jednak indeksowane na wypadek, gdyby były potrzebne. Często te same dokładne dane mogą być przechowywane nawet w 100 różnych miejscach na dysku twardym. Jeśli każde zajmie jeden megabajt miejsca, deduplikacja zmniejszy to miejsce na dysku twardym ze 100 megabajtów do jednego. Proces ten polega na archiwizacji danych, a uzyskana dodatkowa przestrzeń jest bardzo korzystna dla dysku twardego komputera.
Dodatkowe korzyści z deduplikacji obejmują zmniejszenie potrzebnej przestrzeni kopii zapasowej nawet o 90 procent, zmniejszenie kosztów, takich jak zapotrzebowanie na energię, miejsce i chłodzenie, przywrócenie wyższego poziomu usług, wyeliminowanie wielu różnych rodzajów błędów i odzyskanie danych w kilku różne punkty. Wadą deduplikacji jest to, że identyfikuje ona zduplikowane dane za pomocą funkcji skrótu kryptograficznego, co może być zawodne, a kolizja lub inny rodzaj błędu spowodowałby utratę danych. Ponadto, jeśli osoba, która autoryzowała procedurę, nie wie o związanej z tym redukcji nadmiarowości, może to negatywnie wpłynąć na niezawodność komputera.
Deduplikacja danych polega na najpierw segmentacji każdego przetwarzanego fragmentu danych. Każdy segment jest identyfikowany i porównywany z danymi, które są już w systemie. Jeśli dane są unikalne, są przechowywane na dysku. Jeśli jest to zduplikowany fragment danych, zamiast tego tworzone jest odwołanie. Deduplikację można wdrożyć za pomocą oprogramowania o nazwie Data Domain, które współpracuje z systemami danych i pamięci masowej do filtrowania danych, odwoływania się, eliminowania lub przechowywania każdego bajtu, stosownie do przypadku.