Was ist Datenreduktion?
Data -Redundanz ist eine Situation, die in Datenbanksystemen auftritt und die unbeabsichtigte Erstellung von doppelten Daten umfasst, die für die Funktion der Datenbank nicht erforderlich sind. Während Redundanz in einigen Situationen oft ein wünschenswertes Merkmal ist, gilt dies nicht, wenn es um die Funktion einer Datenbank geht. Das Vorhandensein von doppelten Daten kann häufig einen nachteiligen Einfluss auf die Funktion des Systems haben, was dazu führt, dass Informationen als Reaktion auf Systemabfragen zurückgegeben werden, die weniger als hilfreich sind. Eine der wichtigsten Funktionen des Datenmanagements ist die Identifizierung doppelter Daten und die Entfernung dieser Duplikationen.
Das Potenzial für die Datenreduktion findet sich in nahezu jeder Art von Datenbankprogramm. Programme, die als flach angesehen werden, wie z. B. Tabellenkalkulationen, und sich auf die manuelle Eingabe von Daten verlassen, sind besonders anfällig für die Duplizierung von Informationen, die zu Komplikationen führen können, wenn es darum geht, die gewünschten Informationen abzurufen. Datenbanken im relationalen Stil wie VerkaufKontaktdatenbanken enthalten häufig Prozesse, die dazu beitragen, die Chancen auf unbeabsichtigte Duplikation zu minimieren, z. B. die Erstellung von zwei verschiedenen Kontaktdateien auf demselben Kontakt, das mit demselben Unternehmen verbunden ist. Trotz der Verwendung von Systemprüfungen zur Verringerung der Inzidenz von Datenreduktion besteht immer noch die Möglichkeit, dass Probleme auftreten, sodass es erforderlich ist, die Aufgabe der Datenbereinigung in einer Datenbank regelmäßig zu beteiligen.
Die Datenauf Redundanz bedeutet im besten Fall, dass die Datenbank mit Informationen übersät ist, die nicht wesentlich sind, aber keine wirkliche Bedrohung für die Fähigkeit darstellen, die Daten zu finden, wann und nach Bedarf. Im schlimmsten Fall verlangsamt sich das Vorhandensein der doppelten Daten die wesentlichen Funktionen der Datenbank und kann den Prozess der Verwendung der Datenbank zum Verwalten bestimmter Aufgaben komplizieren. Beispielsweise verwenden Sie eine Kundendatenbank, die mit redundanten Informationen verstopft ist, um Mailing -Labels WO zu generierenDie Erstellung einer Reihe von doppelten Ebenen führt dazu, dass die Duplikate entweder sortieren und entsorgen müssen, bevor die Etiketten verwendet werden können, oder sich die Zeit zu nehmen, um die Datenbank zu säubern, bevor Sie versuchen, die Etiketten zu generieren.
Glücklicherweise kann die Überwachung und Korrektur von Datenreduzierung von vielen Datenverwaltungssystemen relativ leicht erreichen. Einige Systeme markieren die Eingabe von doppelten Daten, sodass es einfach ist, die wahrgenommene Duplizierung zu überprüfen und zu entscheiden, ob sie löschen oder sie stehen lassen. Es gibt sogar Softwareprogramme, mit denen eine vorhandene Datenbank nach Duplikationen scannen und diese redundanten Einträge automatisch relativ einfach entfernen können.