Che cos'è la ridondanza dei dati?
La ridondanza dei dati è una situazione che si verifica all'interno dei sistemi di database e comporta la creazione involontaria di dati duplicati che non è necessaria per la funzione del database. Mentre la ridondanza è spesso un tratto desiderabile in alcune situazioni, ciò non è vero quando si tratta della funzione di un database. La presenza di dati duplicati può spesso avere un effetto negativo sulla funzione del sistema, causando la restituzione di informazioni in risposta a richieste del sistema che sono poco utili. Una delle funzioni chiave della gestione dei dati è l'identificazione di dati duplicati e la rimozione di tali duplicati.
Il potenziale di ridondanza dei dati si trova praticamente in qualsiasi tipo di programma di database. I programmi considerati piatti, come i fogli di calcolo, e che si basano sull'inserimento manuale dei dati sono particolarmente sensibili alla duplicazione delle informazioni che possono portare a complicazioni quando si tratta di recuperare le informazioni desiderate. I database in stile relazionale, come i database dei contatti di vendita, spesso includono processi che aiutano a ridurre al minimo le possibilità di duplicazione involontaria, come la creazione di due diversi file di contatto sullo stesso contatto associato alla stessa azienda. Anche con l'uso dei controlli di sistema per aiutare a ridurre l'incidenza della ridondanza dei dati, esiste ancora il potenziale che si verifichino problemi, rendendo necessario impegnarsi periodicamente nel compito di pulizia dei dati all'interno di un database.
Nella migliore delle ipotesi, la ridondanza dei dati significa che il database è disseminato di informazioni che non sono essenziali ma non rappresentano una vera minaccia alla capacità di trovare i dati quando e quando necessario. Nel peggiore dei casi, la presenza di dati duplicati rallenta le funzioni essenziali del database e può complicare il processo di utilizzo del database per gestire determinate attività. Ad esempio, l'utilizzo di un database di clienti che è ostruito da informazioni ridondanti per generare etichette postali comporterebbe la creazione di un numero di livelli duplicati, rendendo necessario ordinare e smaltire i duplicati prima che le etichette possano essere utilizzate o prendere il tempo di ripulire il database prima di tentare di generare le etichette.
Fortunatamente, il monitoraggio e la correzione della ridondanza dei dati è qualcosa che molti sistemi di gestione dei dati possono realizzare con relativa facilità. Alcuni sistemi contrassegneranno l'immissione di dati duplicati, facilitando la revisione della duplicazione percepita e decidendo se eliminarli o lasciarli in piedi. Esistono anche programmi software che possono essere utilizzati per scansionare un database esistente alla ricerca di duplicati e rimuovere automaticamente quelle voci ridondanti con relativa facilità.