Vad är dataintegration?
Dataintegration är sammanslagning av flera datakällor till en enda datakälla. Denna praxis är ofta mycket tidskrävande och involverad, eftersom de olika datakällorna troligen är oförenliga med varandra. Saker som är så enkla som olika kolumnnamn i ett kalkylblad är tillräckliga för att kräva omformatering av datum. Denna process är vanligast i situationer där två grupper startade utan anslutning, men placeras tillsammans efter att de har arbetat självständigt. Dataintegration har blivit ett viktigare ämne på grund av förekomsten av fria datakällor och online databaser.
Datadelen av dataintegrationen kan vara nästan vad som helst så länge den lagras i ett datorsystem. Datas faktiska innehåll är sällan lika viktigt som det sätt på vilket data lagras. Merparten av tiden lagras uppgifterna i databaser, organiserade informationssystem. Dessa system innehåller unika poster och fält som gör det möjligt för användare att snabbt hitta information.
Det största hinderet för någon dataintegrationsprocess är själva uppgifterna. I många fall, när uppgifterna först sattes upp, var det ingen avsikt att någonsin sammanslåa datasättet med ett annat. Detta betyder att även om två datasätt kan hänvisa till samma sak, är de helt oförenliga.
Nästan allt kommer att göra databaser oförenliga. Något så enkelt som en skillnad i presentationen, som fältordning eller kolumnbredd, kan räcka för att förhindra en enkel sammanslagning. När uppgifterna är väsentligt olika, till exempel en databas som innehåller mer eller mindre information, är sammanslagningen mycket svårare.
De två situationerna som kräver dataintegration mer än någon annan är inom verksamheten och forskningsområdet. I näringslivet kräver sammanslagning av avdelningar eller företag att kombinera den tidigare separata informationen i en enda struktur. Denna form av integration är i allmänhet mycket svår om inte de ursprungliga grupperna använde liknande programvara och hade liknande informationsmål.
När dataintegration utförs för forskningsändamål går det i allmänhet mycket smidigare. När en forskare ger tillgång till sin information till en annan tittar de båda parterna i allmänhet på samma process. Det betyder att de kommer att använda liknande metoder för att katalogisera och lagra sina data.
Tidigare var dataintegration ett relativt litet område med datastudier, men detta har förändrats sedan den tidiga delen av 2000-talet. Med att gratis onlinedatabaser blir mer populära och exakta, rusar företag för att få sin information i ett delbart format. Detta gör att de både kan släppa sin information i en offentlig form och integrera privata versioner av välkända offentliga gränssnitt i sina system.