Co je deduplikace dat?
Deduplikace dat je technika komprimace dat, kde se duplikovaná data odstraní, přičemž se zachová jedna kopie každé informační jednotky v systému, místo aby se umožnilo násobkům prospívat. Zachované kopie mají odkazy umožňující systému je načíst. Tato technika snižuje potřebu úložného prostoru a může vést k tomu, že systémy budou běžet rychleji a omezí náklady spojené s ukládáním dat. Může pracovat mnoha způsoby a používá se na mnoha typech počítačových systémů.
Při deduplikaci dat na úrovni souborů systém hledá duplicitní soubory a odstraní doplňky. Deduplikace na úrovni bloků se dívá na bloky dat v souborech, aby identifikovala cizí data. Lidé mohou skončit zdvojnásobenými daty z různých důvodů a použití deduplikace dat může zefektivnit systém a usnadnit jeho používání. Systém může pravidelně procházet daty, aby zkontroloval duplikáty, eliminoval doplňky a generoval odkazy na zbylé soubory.
Takové systémy jsou někdy označovány jako inteligentní kompresní systémy nebo systémy pro ukládání jediných instancí. Oba pojmy odkazují na myšlenku, že systém inteligentně pracuje a ukládá data, aby se snížilo zatížení systému. Deduplikace dat může být obzvláště cenná u velkých systémů, kde jsou uložena data z několika zdrojů a náklady na skladování neustále rostou, protože systém je třeba časem rozšiřovat.
Tyto systémy jsou navrženy jako součást většího systému pro kompresi a správu dat. Deduplikace dat nemůže chránit systémy před viry a poruchami. Je důležité používat odpovídající antivirovou ochranu, aby byl systém v bezpečí a omezil virovou kontaminaci souborů a zároveň zálohoval na samostatném místě, aby se vyřešily obavy ze ztráty dat v důsledku výpadků, poškození vybavení atd. Komprese dat před zálohováním ušetří čas a peníze.
Systémy využívající deduplikaci dat ve svém úložišti mohou běžet rychleji a efektivněji. Stále budou vyžadovat pravidelné rozšiřování, aby vyhovělo novým datům a řešilo obavy o bezpečnost, ale nemělo by být méně náchylné k rychlému vyplňování duplicitních dat. Toto je obzvláště obyčejný problém na e-mailových serverech, kde server může ukládat velké množství dat pro uživatele a významné kousky toho by mohly sestávat z duplikátů jako stejné přílohy opakované znovu a znovu; například mnoho lidí odesílajících e-maily z práce má připojená zápatí s odepřením e-mailu a firemními logy a ti mohou rychle zabrat místo na serveru.