O que são dados sujos?
Dados sujos é um termo usado para descrever qualquer tipo de dados eletrônicos desatualizados, incompletos ou não precisos. Dados desse tipo podem ser criados devido a erros na entrada de dados, falha na atualização regular dos dados ou até mesmo a entrada dos mesmos dados mais de uma vez. Às vezes, os dados incorretos nada mais são do que erros de pontuação no texto de documentos eletrônicos. Em outros casos, dados sujos podem ser informações que são intencionalmente enganosas, como tentativas de modificar registros contábeis para apresentar uma imagem específica a investidores e outros.
Na maioria das vezes, o acúmulo de dados sujos em qualquer tipo de banco de dados não é intencional. Os indivíduos que estão inserindo novas informações no banco de dados podem digitar incorretamente as palavras, deixar de fora a pontuação que é importante para entender a intenção do texto ou deixar de seguir uma estratégia de formatação específica. Com situações desse tipo, corrigir as informações incorretas é um processo relativamente simples que requer nada mais do que alterar o texto incorreto e salvar as alterações. Às vezes, as empresas gerenciam esse processo revisando dados depois que eles são inseridos e fazendo as atualizações necessárias.
Dados sujos também podem ocorrer devido a uma falha na atualização de registros existentes quando as informações são alteradas. Por exemplo, se os vendedores não atualizarem os arquivos do cliente quando ocorrerem alterações de pessoal com um determinado cliente, esses arquivos não serão mais precisos e serão considerados sujos. Assim como na correção de erros de ortografia e pontuação, dedicar um tempo para remover informações desatualizadas e substituí-las por dados atuais ajuda a aumentar a usabilidade geral do banco de dados.
Há situações em que a criação de dados sujos é intencional. As empresas podem optar por omitir informações específicas de um banco de dados, a fim de criar uma percepção específica sobre finanças, como destacar o valor da receita gerada para um determinado período, mas optar por não inserir dados relacionados ao valor da receita coletada para o mesmo período. Nesse tipo de dados sujos, as informações apresentadas são precisas até o momento, mas são consideradas incompletas.
Com alguns tipos de dados sujos, a decisão pode ser não gastar tempo e esforço para fazer as correções. Isso é comum quando os dados incorretos não afetam a capacidade da empresa de funcionar corretamente ou não apresentam potencial para causar grande sofrimento. Isso significa que praticamente qualquer entidade que mantém algum tipo de banco de dados provavelmente tem pelo menos um pouco de dados sujos intercalados com outras informações atuais e precisas.