Co to jest deduplikacja danych?
Deduplikacja danych jest techniką kompresji danych, w której usuwane są zduplikowane dane, utrzymując jedną kopię każdej jednostki informacji w systemie, a nie pozwalając na mnożenie się. Zachowane kopie mają odniesienia, które pozwalają systemowi je odzyskać. Ta technika zmniejsza zapotrzebowanie na przestrzeń dyskową i może przyspieszyć działanie systemów, a także ograniczyć wydatki związane z przechowywaniem danych. Może działać na wiele sposobów i jest używany na wielu typach systemów komputerowych.
W deduplikacji danych na poziomie plików system wyszukuje zduplikowane pliki i usuwa dodatki. Deduplikacja na poziomie bloków sprawdza bloki danych w plikach w celu zidentyfikowania obcych danych. Ludzie mogą mieć podwojone dane z wielu różnych powodów, a zastosowanie deduplikacji danych może usprawnić system, ułatwiając korzystanie z niego. System może okresowo przeglądać dane, aby sprawdzić duplikaty, wyeliminować dodatki i wygenerować odniesienia do pozostawionych plików.
Takie systemy są czasami nazywane inteligentnymi systemami kompresji lub systemami pamięci masowej z pojedynczą instancją. Oba terminy odnoszą się do idei inteligentnego działania systemu w celu przechowywania i przechowywania danych w celu zmniejszenia obciążenia systemu. Deduplikacja danych może być szczególnie cenna w dużych systemach, w których przechowywane są dane z wielu źródeł, a koszty przechowywania stale rosną, ponieważ z czasem system musi być rozbudowywany.
Systemy te zostały zaprojektowane jako część większego systemu do kompresji i zarządzania danymi. Deduplikacja danych nie chroni systemów przed wirusami i awariami, dlatego ważne jest stosowanie odpowiedniej ochrony antywirusowej, aby zachować bezpieczeństwo systemu i ograniczyć zanieczyszczenie wirusowe plików, a także tworzyć kopie zapasowe w osobnym miejscu, aby rozwiązać problemy związane z utratą danych z powodu awarii, uszkodzeń sprzęt i tak dalej. Kompresowanie danych przed utworzeniem kopii zapasowej pozwoli zaoszczędzić czas i pieniądze.
Systemy wykorzystujące deduplikację danych w swoich pamięciach mogą działać szybciej i wydajniej. Nadal będą wymagać okresowej rozbudowy w celu uwzględnienia nowych danych i rozwiązania problemów związanych z bezpieczeństwem, ale powinny być mniej podatne na szybkie zapełnianie zduplikowanych danych. Jest to szczególnie powszechne na serwerach e-mail, gdzie serwer może przechowywać duże ilości danych dla użytkowników, a znaczna ich część może składać się z duplikatów takich jak te same załączniki powtarzane w kółko; na przykład wiele osób wysyłających wiadomości e-mail z pracy dołącza stopki z zastrzeżeniami do wiadomości e-mail i logo firmy, które szybko zajmują miejsce na serwerze.