Was ist Datenintegration?
Datenintegration ist das Zusammenführen mehrerer Datenquellen zu einer einzigen Datenquelle. Diese Vorgehensweise ist oft sehr zeitaufwendig und aufwändig, da die verschiedenen Datenquellen wahrscheinlich nicht miteinander kompatibel sind. Dinge, die so einfach wie verschiedene Spaltennamen in einer Tabelle sind, erfordern eine Neuformatierung des Datums. Dieser Vorgang tritt am häufigsten in Situationen auf, in denen zwei Gruppen ohne Verbindung gestartet, aber nach ihrer unabhängigen Arbeit zusammengestellt werden. Die Datenintegration ist aufgrund der Verbreitung kostenloser Datenquellen und Online-Datenbanken zu einem immer wichtigeren Thema geworden.
Der Datenteil der Datenintegration kann fast alles sein, solange er in einem Computersystem gespeichert ist. Der tatsächliche Inhalt der Daten ist selten so wichtig wie die Art und Weise, in der die Daten gespeichert werden. Meistens werden die Daten in Datenbanken gespeichert, in organisierten Informationssystemen. Diese Systeme enthalten eindeutige Einträge und Felder, mit denen Benutzer Informationen schnell finden können.
Die größte Hürde für einen Datenintegrationsprozess sind die Daten selbst. In vielen Fällen bestand bei der erstmaligen Einrichtung der Daten keine Absicht, den Datensatz jemals mit einem anderen zusammenzuführen. Dies bedeutet, dass zwei Datensätze zwar auf dasselbe Element verweisen, jedoch völlig inkompatibel sind.
Fast alles macht Datenbanken inkompatibel. Etwas so Einfaches wie ein Unterschied in der Darstellung, wie die Feldreihenfolge oder die Spaltenbreite, kann ausreichen, um eine einfache Zusammenführung zu verhindern. Wenn sich die Daten erheblich unterscheiden, z. B. eine Datenbank, die mehr oder weniger Informationen enthält, ist das Zusammenführen sehr viel schwieriger.
Die beiden Situationen, die mehr als jede andere Datenintegration erfordern, betreffen das Geschäft und die Forschung. In der Geschäftswelt müssen zum Zusammenführen von Abteilungen oder Unternehmen die zuvor getrennten Informationen in einer einzigen Struktur zusammengefasst werden. Diese Form der Integration ist im Allgemeinen sehr schwierig, es sei denn, die ursprünglichen Gruppen verwendeten ähnliche Software und hatten ähnliche Informationsziele.
Wenn die Datenintegration zu Forschungszwecken durchgeführt wird, verläuft sie im Allgemeinen viel reibungsloser. Wenn ein Forscher einem anderen Zugang zu seinen Informationen gewährt, untersuchen die beiden Parteien im Allgemeinen den gleichen Prozess. Dies bedeutet, dass sie ähnliche Methoden verwenden, um ihre Daten zu katalogisieren und zu speichern.
In der Vergangenheit war die Datenintegration ein relativ kleiner Bereich der Datenstudien, aber dies hat sich seit Beginn des 21. Jahrhunderts geändert. Da kostenlose Online-Datenbanken immer beliebter und genauer werden, versuchen Unternehmen, ihre Informationen in einem gemeinsam nutzbaren Format abzurufen. Dies ermöglicht es ihnen, ihre Informationen in einer öffentlichen Form freizugeben und private Versionen bekannter öffentlicher Schnittstellen in ihre Systeme zu integrieren.