Co to jest integracja danych?
Integracja danych polega na połączeniu wielu źródeł danych w jedno źródło danych. Ta praktyka jest często bardzo czasochłonna i angażuje, ponieważ różne źródła danych są prawdopodobnie ze sobą niekompatybilne. Rzeczy tak proste, jak różne nazwy kolumn w arkuszu kalkulacyjnym, wystarczają, aby wymagać ponownego formatowania daty. Ten proces jest najbardziej powszechny w sytuacjach, w których dwie grupy rozpoczęły się bez połączenia, ale zostały umieszczone razem po tym, jak pracowały niezależnie. Integracja danych stała się ważniejszym tematem ze względu na powszechność bezpłatnych źródeł danych i internetowych baz danych.
Część danych integracji danych może być prawie wszystkim, o ile jest przechowywana w systemie komputerowym. Rzeczywista zawartość danych rzadko jest tak ważna, jak sposób przechowywania danych. Przez większość czasu dane są przechowywane w bazach danych, zorganizowanych systemach informacji. Systemy te zawierają unikalne wpisy i pola, które pozwalają użytkownikom szybko znaleźć informacje.
Największą przeszkodą w procesie integracji danych są same dane. W wielu przypadkach, kiedy dane były konfigurowane po raz pierwszy, nie było intencji łączenia zestawu danych z innym. Oznacza to, że chociaż dwa zestawy danych mogą odnosić się do tej samej rzeczy, są one całkowicie niezgodne.
Prawie wszystko spowoduje niezgodność baz danych. Coś tak prostego jak różnica w prezentacji, taka jak kolejność pól lub szerokość kolumny, może wystarczyć, aby zapobiec łatwemu połączeniu. Kiedy dane znacznie się różnią, na przykład jedna baza danych zawierająca mniej lub więcej informacji, scalanie jest znacznie trudniejsze.
Dwie sytuacje, które wymagają integracji danych bardziej niż jakakolwiek inna, dotyczą branży i badań. W świecie biznesu łączenie działów lub firm wymaga połączenia wcześniej oddzielnych informacji w jedną strukturę. Ta forma integracji jest na ogół bardzo trudna, chyba że pierwotne grupy korzystały z podobnego oprogramowania i miały podobne cele informacyjne.
Gdy integracja danych jest przeprowadzana w celach badawczych, zwykle przebiega ona znacznie płynniej. Gdy jeden badacz daje dostęp do swoich informacji innym, obie strony zazwyczaj analizują ten sam proces. Oznacza to, że będą używać podobnych metod do katalogowania i przechowywania swoich danych.
W przeszłości integracja danych była stosunkowo niewielkim obszarem badań danych, ale zmieniło się to od początku XXI wieku. W związku z tym, że bezpłatne internetowe bazy danych stają się coraz bardziej popularne i dokładne, firmy starają się uzyskać informacje w formacie umożliwiającym udostępnianie. To pozwala im zarówno ujawniać informacje w formie publicznej, jak i integrować prywatne wersje dobrze znanych publicznych interfejsów z ich systemami.