重複排除とは何ですか?
重複排除は、冗長データを排除するために使用されるプロセスです。 プロセス中に、コンピューターのハードドライブがスキャンされ、比較ウィンドウ全体で大量のデータシーケンスが検出されます。 重複データのスキャン中に、通常8キロバイト以上のシーケンスが選択されます。 シーケンスがストレージシステムの他の場所で見つかった場合、複製されたファイルは再度保存されるのではなく参照されます。
重複排除に成功すると、コンピューター上の数キロバイトのデータが削除され、明らかな利点が得られます。 データの複製はシステム内の不必要なスペースを占有し、余分なデータが削除されると、コンピューター上のストレージスペースが増えます。 これにより、システムは余分なデータで行き詰まることがないため、システムをより高速かつ効率的に実行できます。 さらに、コンピューターの空き領域が増えると、帯域幅の改善が常に顕著になります。
重複排除では、大量のデータを最初の場所に参照し、データの余分なコピーを削除しますが、必要な場合に備えてインデックスを作成します。 多くの場合、同じ正確なデータをハードドライブの100か所まで保存できます。 それぞれが1メガバイトのスペースを使用する場合、重複排除により、ハードドライブ上のこのスペースが100メガバイトから1メガバイトに削減されます。 このプロセスはデータをアーカイブすることで機能しますが、得られる追加スペースはコンピューターのハードドライブにとって非常に有益です。
重複排除のその他の利点には、必要なバックアップスペースの量を最大90%削減し、電力、スペース、冷却要件などのコストを削減し、より高いレベルのサービスを復元し、さまざまな種類のエラーを排除し、複数の場所でデータを回復することが含まれます異なる点。 重複排除の欠点は、暗号化ハッシュ関数を使用して重複データを識別することです。これは信頼性が低く、衝突やその他の種類のエラーによりデータが失われる可能性があります。 また、手順を承認した人が関連する冗長性の低下に気付いていない場合、コンピューターの信頼性が悪影響を受ける可能性があります。
データ重複排除は、処理される各データを最初にセグメント化することで機能します。 各セグメントが識別され、すでにシステムにあるデータと比較されます。 データが一意である場合、ディスクに保存されます。 重複するデータの場合、代わりに参照が作成されます。 重複排除は、Data Domainと呼ばれるソフトウェアを使用して実装できます。DataDomainは、データおよびストレージシステムと連携してデータをフィルタリングし、必要に応じて各バイトを参照、削除、または保存します。