Skip to main content

Что такое дедупликация данных?

Дедупликация данных - это метод сжатия данных, при котором дублирующиеся данные удаляются, сохраняя одну копию каждой единицы информации в системе, а не позволяя мультипликаторам процветать. Сохраненные копии имеют ссылки, позволяющие системе их извлекать. Этот метод уменьшает потребность в объеме памяти и может поддерживать быстродействие систем в дополнение к ограничению расходов, связанных с хранением данных Он может работать разными способами и используется во многих типах компьютерных систем.

При дедупликации данных на уровне файлов система ищет дубликаты файлов и удаляет дополнительные элементы. Дедупликация на уровне блоков просматривает блоки данных в файлах для выявления посторонних данных. Люди могут получить двойные данные по самым разным причинам, а дедупликация данных может упростить систему, упрощая ее использование. Система может периодически просматривать данные, чтобы проверять наличие дубликатов, устранять лишние элементы и генерировать ссылки на оставленные файлы.

Такие системы иногда называют интеллектуальными системами сжатия или системами хранения одного экземпляра. Оба термина ссылаются на идею, что система интеллектуально работает для хранения и хранения данных, чтобы уменьшить нагрузку на систему. Дедупликация данных может быть особенно полезна в больших системах, где хранятся данные из нескольких источников, а затраты на хранение постоянно растут, так как система должна расширяться со временем.

Эти системы предназначены для того, чтобы быть частью более крупной системы сжатия и управления данными. Дедупликация данных не может защитить системы от вирусов и сбоев, поэтому важно использовать адекватную антивирусную защиту для обеспечения безопасности системы и ограничения вирусного заражения файлов, а также для резервного копирования в отдельном месте, чтобы решить проблемы потери данных из-за отключений, повреждения оборудование и пр. Сжатие данных перед резервным копированием сэкономит время и деньги.

Системы, использующие дедупликацию данных в своих хранилищах, могут работать быстрее и эффективнее. Они по-прежнему будут нуждаться в периодическом расширении для размещения новых данных и решения проблем безопасности, но они должны быть менее склонны к быстрому заполнению дублирующимися данными. Это особенно распространенная проблема на почтовых серверах, где сервер может хранить большие объемы данных для пользователей, и значительная их часть может состоять из дубликатов, таких как вложения, повторяемые снова и снова; например, многие люди, пишущие по электронной почте с работы, прикрепили нижние колонтитулы с заявлениями об отказе от электронной почты и логотипами компаний, и они могут быстро поглотить пространство сервера.