¿Qué son los datos sucios?
Datos sucios es un término utilizado para describir cualquier tipo de datos electrónicos que están desactualizados, incompletos o que de otra manera no son precisos. Se pueden crear datos de este tipo debido a errores en la entrada de datos, una falla en la actualización de los datos de manera regular o incluso la entrada de los mismos datos más de una vez. A veces, los datos incorrectos no son más que errores en la puntuación en el texto de los documentos electrónicos. En otros casos, los datos sucios pueden ser información intencionalmente engañosa, como los intentos de modificar los registros contables para presentar una imagen específica a los inversores y otros.
En su mayor parte, la acumulación de datos sucios en cualquier tipo de base de datos no es intencional. Las personas que ingresan nueva información en la base de datos pueden escribir mal las palabras, omitir la puntuación que es importante para comprender la intención del texto o no seguir una estrategia de formato específica. Con situaciones de este tipo, corregir la información incorrecta es un proceso relativamente simple que no requiere nada más que alterar el texto incorrecto y guardar los cambios. Algunas veces, las empresas administran este proceso revisando los datos después de ingresarlos y realizando las actualizaciones necesarias.
Los datos sucios también pueden ocurrir debido a una falla en la actualización de los registros existentes cuando la información cambia. Por ejemplo, si los vendedores no actualizan los archivos de los clientes cuando se producen cambios de personal con un cliente determinado, esos archivos ya no son precisos y se consideran sucios. Al igual que con la corrección de errores ortográficos y de puntuación, tomarse el tiempo para eliminar la información desactualizada y reemplazarla con datos actuales ayuda a aumentar la usabilidad general de la base de datos.
Hay situaciones en las que la creación de datos sucios es intencional. Las empresas pueden optar por omitir información específica de una base de datos para crear una percepción específica con respecto a las finanzas, como resaltar la cantidad de ingresos generados para un período determinado, pero optar por no ingresar datos que se relacionen con la cantidad de ingresos recaudados para el mismo período. En este tipo de datos sucios, la información que se presenta es precisa en la medida de lo posible, pero se considera incompleta.
Con algunos tipos de datos sucios, la decisión puede ser no tomarse el tiempo y el esfuerzo para hacer correcciones. Esto es común cuando los datos incorrectos no tienen ningún impacto en la capacidad de la empresa para funcionar correctamente, o no presentan potencial para causar una gran angustia. Esto significa que casi cualquier entidad que mantenga algún tipo de base de datos probablemente tenga al menos un poco de datos sucios intercalados con otra información que sea actual y precisa.