¿Qué es la deduplicación?
La deduplicación es un proceso utilizado para eliminar los datos redundantes. Durante el proceso, el disco duro de una computadora se escanea para grandes secuencias de datos en las ventanas de comparación. Mientras escanean datos duplicados, generalmente se eligen secuencias de ocho kilobytes o más. Si la secuencia se encuentra en otra parte del sistema de almacenamiento, el archivo duplicado se hace referencia en lugar de almacenarse nuevamente.
Una deduplicación exitosa puede eliminar varios kilobytes de datos en una computadora, lo que lleva a beneficios obvios. La duplicación de datos ocupa espacio innecesario en el sistema, y cuando se eliminan los datos extraños, esto deja al usuario con más espacio de almacenamiento en la computadora. Esto permitirá que el sistema se ejecute más rápido y de manera más eficiente porque no está empantanado con los datos adicionales. Además, la mejora del ancho de banda siempre es más notable cuando una computadora tiene más espacio libre.
La deduplicación implica hacer referencia a la gran cantidad de datos a la primera ubicación y eliminar las copias adicionales de TSin embargo, los datos, que están indexados en caso de que deban ser necesarios. A menudo, los mismos datos exactos se pueden almacenar en hasta 100 lugares diferentes en un disco duro. Si cada uno ocupa un megabyte de espacio, la deduplicación reducirá este espacio en el disco duro de 100 megabytes a solo uno. El proceso funciona archivando los datos, y el espacio adicional que se obtiene es muy beneficioso para el disco duro de una computadora.
Los beneficios adicionales de la deduplicación incluyen reducir la cantidad de espacio de respaldo que se necesita hasta un 90 por ciento, reducir costos como energía, espacio y requisitos de enfriamiento, restaurar un mayor nivel de servicio, eliminar muchos tipos diferentes de errores y recuperar datos en varios puntos diferentes. Un inconveniente de la deduplicación es que identifica los datos duplicados utilizando funciones de hash criptográfica, que pueden no ser confiables, y una colisión u otro tipo de error resu.LT en la pérdida de datos. Además, si la persona que autorizó el procedimiento no es consciente de la reducción de redundancia involucrada, la confiabilidad de la computadora puede verse afectada negativamente.
La deduplicación de datos funciona segmentando primero cada datos que se procesan. Cada segmento se identifica y se compara con los datos que ya están en el sistema. Si los datos son únicos, se almacena en un disco. Si se trata de un duplicado de datos, se crea una referencia en su lugar. La deduplicación se puede implementar utilizando software llamado Data Domain, que funciona con los datos y los sistemas de almacenamiento para filtrar a través de datos, hacer referencia, eliminar o almacenar cada byte, según corresponda.