Co to jest redundancja danych?
Nadmiarowość danych to sytuacja, która występuje w systemach baz danych i wiąże się z niezamierzonym utworzeniem zduplikowanych danych, które nie są konieczne do działania bazy danych. Chociaż nadmiarowość jest często pożądaną cechą w niektórych sytuacjach, nie jest to prawdą, jeśli chodzi o funkcję bazy danych. Obecność zduplikowanych danych może często mieć niekorzystny wpływ na działanie systemu, powodując zwrot informacji w odpowiedzi na zapytania systemowe, które są mniej niż pomocne. Jedną z kluczowych funkcji zarządzania danymi jest identyfikacja zduplikowanych danych i usuwanie tych duplikatów.
Potencjał nadmiarowości danych występuje w prawie każdym programie bazodanowym. Programy uważane za płaskie, takie jak arkusze kalkulacyjne i polegające na ręcznym wprowadzaniu danych, są szczególnie podatne na powielanie informacji, które może prowadzić do komplikacji, jeśli chodzi o odzyskiwanie pożądanych informacji. Bazy danych w stylu relacyjnym, takie jak bazy danych kontaktów handlowych, często zawierają procesy, które pomagają zminimalizować szanse na niezamierzone powielenie, takie jak utworzenie dwóch różnych plików kontaktów dla tego samego kontaktu powiązanego z tą samą firmą. Nawet przy użyciu kontroli systemu w celu zmniejszenia liczby przypadków nadmiarowości danych nadal istnieje ryzyko wystąpienia problemów, co powoduje konieczność okresowego angażowania się w czyszczenie danych w bazie danych.
W najlepszym wypadku nadmiarowość danych oznacza, że baza danych jest wypełniona informacjami, które nie są niezbędne, ale nie stanowią realnego zagrożenia dla możliwości znalezienia danych w razie potrzeby. W najgorszym przypadku zduplikowane dane spowalniają podstawowe funkcje bazy danych i mogą komplikować proces korzystania z bazy danych do zarządzania niektórymi zadaniami. Na przykład użycie bazy danych klientów, która jest zatkana zbędnymi informacjami do wygenerowania etykiet adresowych, spowodowałoby utworzenie wielu zduplikowanych poziomów, co spowodowałoby konieczność sortowania i usuwania duplikatów przed użyciem etykiet lub wzięcia czas wyczyścić bazę danych przed próbą wygenerowania etykiet.
Na szczęście monitorowanie i korygowanie nadmiarowości danych jest czymś, co wiele systemów zarządzania danymi może osiągnąć ze względną łatwością. Niektóre systemy oflagują wprowadzanie zduplikowanych danych, ułatwiając przeglądanie postrzeganego powielania i podejmowanie decyzji o jego usunięciu lub pozostawieniu. Istnieją nawet programy, których można użyć do skanowania istniejącej bazy danych w poszukiwaniu duplikatów i automatycznego usuwania zbędnych wpisów ze względną łatwością.