Co to jest deduplikacja danych?
Deduplikacja danych jest techniką kompresji danych, w których zduplikowane dane są usuwane, utrzymując jedną kopię każdej jednostki informacji o systemie, zamiast umożliwić rozwój mnożników. Zatrzymane kopie mają odniesienia umożliwiające systemowi ich odzyskanie. Ta technika zmniejsza potrzebę miejsca do przechowywania i może utrzymać systemy szybciej, oprócz ograniczenia wydatków związanych z przechowywaniem danych. Może działać na wiele sposobów i jest używany w wielu typach systemów komputerowych.
W deduplikacji danych na poziomie pliku system szuka dowolnych zduplikowanych plików i usuwa dodatki. Deduplikacja na poziomie bloków dotyczy bloków danych w plikach w celu zidentyfikowania danych obcych. Ludzie mogą skończyć z podwojonymi danymi z wielu różnych powodów, a korzystanie z deduplikacji danych może usprawnić system, ułatwiając korzystanie. System może okresowo porównać dane, aby sprawdzić duplikaty, wyeliminować dodatki i generować referencje dla pozostawionych plików.
MS są czasami określane jako inteligentne systemy kompresji lub systemy pamięci masowej. Oba terminy odnoszą się do idei, że system działa inteligentnie w przechowywaniu i składaniu danych w celu zmniejszenia obciążenia systemu. Deduplikacja danych może być szczególnie cenna w przypadku dużych systemów, w których dane z wielu źródeł są przechowywane, a koszty przechowywania są stale rosną, ponieważ system musi być rozszerzony z czasem.
Systemy te zostały zaprojektowane tak, aby były częścią większego systemu do kompresji i zarządzania danymi. Deduplikacja danych nie może chronić systemów przed wirusami i błędami, i ważne jest, aby zastosować odpowiednią ochronę przeciwwirusową, aby zapewnić bezpieczeństwo systemowi i ograniczyć wirusowe zanieczyszczenie plików, jednocześnie tworzenie kopii zapasowych w osobnej lokalizacji, aby rozwiązać problemy związane z utratą danych z powodu awarii, uszkodzenia sprzętu i tak dalej. Skompresowanie danych przed tworzeniem kopii zapasowej pozwoli zaoszczędzić czasi pieniądze.
SystemyWykorzystujące deduplikację danych w ich pamięci mogą działać szybciej i wydajniej. Nadal będą wymagać okresowej ekspansji, aby uwzględnić nowe dane i zająć się obawami dotyczącymi bezpieczeństwa, ale powinny być mniej podatne na szybkie wypełnienie duplikowanymi danymi. Jest to szczególnie powszechny problem na serwerach e -mail, w których serwer może przechowywać duże ilości danych dla użytkowników, a znaczące fragmenty mogą składać się z duplikatów, takich jak te same załączniki powtarzane w kółko; Na przykład wiele osób wysyłających e -maile z pracy przywiązało stopki do wyłączeń e -mail i logo firmowe, które mogą szybko jeść przestrzeń serwerową.