¿Qué son los datos sucios?
Dirty Data es un término utilizado para describir cualquier tipo de datos electrónicos que estén desactualizados, incompletos o de otro modo no precisos. Los datos de este tipo pueden crearse debido a errores en la entrada de datos, una falla en actualizar los datos regularmente, o incluso la entrada de los mismos datos más de una vez. A veces, los datos incorrectos no son más que errores en la puntuación en el texto de documentos electrónicos. En otros casos, los datos sucios pueden ser información que es intencionalmente engañosa, como los intentos de modificar los registros contables para presentar una imagen específica a los inversores y otros.
En su mayor parte, la acumulación de datos sucios en cualquier tipo de base de datos no es intencional. Las personas que ingresan a la nueva información en la base de datos pueden escribir mal palabras, dejar de lado la puntuación que es importante para comprender la intención del texto o no seguir una estrategia de formato específica. Con situaciones de este tipo, corregir la información incorrecta es un proceso relativamente simpleEso no requiere nada más que alterar el texto incorrecto y guardar los cambios. Las empresas a veces administran este proceso revisando datos después de que se ingrese y realizando las actualizaciones necesarias.
Los datos sucios también pueden ocurrir debido a la falta de actualización de los registros existentes cuando cambia la información. Por ejemplo, si los vendedores no pueden actualizar los archivos de los clientes cuando los cambios en el personal ocurren con un cliente determinado, esos archivos ya no son precisos y se consideran sucios. Al igual que con la corrección de los errores de ortografía y puntuación, tomarse el tiempo para eliminar información obsoleta y reemplazarla con los datos actuales ayuda a aumentar la usabilidad general de la base de datos.
Hay situaciones en las que la creación de datos sucios es intencional. Las empresas pueden optar por omitir información específica de una base de datos para crear una percepción específica con respecto a las finanzas, como destacar la cantidad de GEIngresos nerados durante un período determinado, pero elegir no ingresar datos relacionados con la cantidad de ingresos recopilados para el mismo período. En este tipo de datos sucios, la información que se presenta es precisa en lo que respecta, pero se considera incompleta.
Con algunos tipos de datos sucios, la decisión puede ser no tomarse el tiempo y el esfuerzo para hacer correcciones. Esto es común cuando los datos incorrectos no tienen ningún impacto en la capacidad del negocio para funcionar correctamente, o no presenta potencial para causar una gran angustia. Esto significa que casi cualquier entidad que mantenga algún tipo de base de datos probablemente tenga al menos un poco de datos sucios intercalados con otra información que sea actual y precisa.