Skip to main content

Что такое дедупликация?

Дедупликация - это процесс, используемый для устранения избыточных данных. Во время этого процесса жесткий диск компьютера сканируется на наличие больших последовательностей данных в окнах сравнения. При сканировании на наличие дублирующих данных обычно выбираются последовательности из восьми килобайт или более. Если последовательность находится в другом месте в системе хранения, дублированный файл ссылается, а не сохраняется снова.

Успешная дедупликация может удалить несколько килобайт данных на компьютере, что приведет к очевидным преимуществам. Дублирование данных занимает ненужное место в системе, а при удалении посторонних данных у пользователя остается больше места на компьютере. Это позволит системе работать быстрее и эффективнее, поскольку она не перегружена дополнительными данными. Кроме того, улучшение пропускной способности всегда более заметно, когда на компьютере больше свободного места.

Дедупликация подразумевает ссылку на большое количество данных в первом местоположении и удаление лишних копий данных, которые, однако, индексируются в случае необходимости. Часто одни и те же точные данные могут храниться в 100 разных местах на жестком диске. Если каждый из них занимает один мегабайт пространства, дедупликация уменьшит это пространство на жестком диске со 100 мегабайт до одного. Процесс работает путем архивирования данных, и дополнительное пространство, которое можно получить, очень полезно для жесткого диска компьютера.

Дополнительные преимущества дедупликации включают сокращение объема резервного пространства, необходимого на целых 90 процентов, снижение затрат, таких как энергопотребление, пространство и требования к охлаждению, восстановление более высокого уровня обслуживания, устранение множества различных видов ошибок и восстановление данных на нескольких разные точки. Недостаток дедупликации состоит в том, что она идентифицирует дублирующиеся данные с использованием криптографических хеш-функций, которые могут быть ненадежными, а коллизия или другой тип ошибки могут привести к потере данных. Кроме того, если лицо, авторизовавшее процедуру, не знает об уменьшении избыточности, это может отрицательно повлиять на надежность компьютера.

Дедупликация данных работает, сначала сегментируя каждый фрагмент данных, который обрабатывается. Каждый сегмент идентифицируется и сравнивается с данными, которые уже есть в системе. Если данные уникальны, они хранятся на диске. Если это дублированный фрагмент данных, вместо него создается ссылка. Дедупликация может быть реализована с использованием программного обеспечения под названием Data Domain, которое работает с системами хранения данных и данных для фильтрации данных, обращения к ним, удаления или сохранения каждого байта, в зависимости от ситуации.