Wat is gegevensredundantie?
Gegevensredundantie is een situatie die zich binnen databasesystemen voordoet en waarbij onbedoeld dubbele gegevens worden gemaakt die niet noodzakelijk zijn voor de functie van de database. Hoewel redundantie in sommige situaties vaak een wenselijke eigenschap is, is dit niet waar als het gaat om de functie van een database. De aanwezigheid van dubbele gegevens kan vaak een nadelig effect hebben op de functie van het systeem, wat resulteert in het retourneren van informatie in antwoord op systeemvragen die minder dan nuttig is. Een van de belangrijkste functies van gegevensbeheer is het identificeren van dubbele gegevens en het verwijderen van die dubbele gegevens.
Het potentieel voor gegevensredundantie is te vinden in vrijwel elk type databaseprogramma. Programma's die als plat worden beschouwd, zoals spreadsheets, en die afhankelijk zijn van handmatige invoer van gegevens, zijn bijzonder gevoelig voor dubbele informatie die tot complicaties kan leiden bij het ophalen van de gewenste informatie. Databases met relationele stijl, zoals databases met verkoopcontacten, bevatten vaak processen die de kans op onbedoelde duplicatie minimaliseren, zoals het maken van twee verschillende contactbestanden op hetzelfde contact dat aan hetzelfde bedrijf is gekoppeld. Zelfs met het gebruik van systeemcontroles om de incidentie van gegevensredundantie te verminderen, kunnen er nog steeds problemen optreden, waardoor het noodzakelijk is om periodiek gegevens op te ruimen in een database.
In het beste geval betekent gegevensredundantie dat de database bezaaid is met informatie die niet essentieel is, maar geen reële bedreiging vormt voor de mogelijkheid om de gegevens te vinden wanneer en wanneer dat nodig is. In het slechtste geval vertraagt de aanwezigheid van de dubbele gegevens de essentiële functies van de database en kan het proces van het gebruik van de database om bepaalde taken te beheren, worden bemoeilijkt. Als u bijvoorbeeld een klantendatabase gebruikt die is verstopt met overbodige informatie om adresetiketten te genereren, zou dit leiden tot het maken van een aantal gedupliceerde niveaus, waardoor het noodzakelijk is om de duplicaten te sorteren en weg te gooien voordat de etiketten kunnen worden gebruikt, of de tijd om de database op te schonen voordat u probeert de labels te genereren.
Gelukkig is het bewaken en corrigeren van gegevensredundantie iets dat veel gegevensbeheersystemen relatief gemakkelijk kunnen bereiken. Sommige systemen zullen de invoer van dubbele gegevens markeren, waardoor het gemakkelijk wordt om de waargenomen duplicatie te beoordelen en te beslissen of deze moet worden verwijderd of moet worden bewaard. Er zijn zelfs softwareprogramma's die kunnen worden gebruikt om een bestaande database te scannen op duplicaten en die overtollige gegevens automatisch met relatief gemak te verwijderen.