Hvad er dataintegration?
Dataintegration er sammenlægning af flere datakilder til en enkelt datakilde. Denne praksis er ofte meget tidskrævende og involveret, da de forskellige datakilder sandsynligvis er uforenelige med hinanden. Ting så enkle som forskellige kolonnenavne på et regneark er nok til at kræve omformatering af dato. Denne proces er mest almindelig i situationer, hvor to grupper startede uden forbindelse, men placeres sammen, efter at de har arbejdet uafhængigt. Dataintegration er blevet et vigtigere emne på grund af udbredelsen af gratis datakilder og online databaser.
Datadelen af dataintegration kan være næsten alt, så længe den er gemt i et computersystem. Datas faktiske indhold er sjældent lige så vigtigt som den måde, hvorpå dataene gemmes. Det meste af tiden opbevares dataene i databaser, organiserede informationssystemer. Disse systemer indeholder unikke poster og felter, der giver brugerne mulighed for hurtigt at finde information.
Den største hindring for enhver dataintegrationsproces er selve dataene. I mange tilfælde, da dataene først blev opsat, var der ingen intentioner om nogensinde at flette datasættet med et andet. Dette betyder, at selvom to datasæt muligvis henviser til den samme ting, er de totalt uforenelige.
Næsten alt vil gøre databaser uforenelige. Noget så simpelt som en forskel i præsentation, såsom feltordning eller kolonnebredde, kan være nok til at forhindre en let fusion. Når dataene er markant forskellige, såsom en database, der indeholder mere eller mindre information, er fusionen meget vanskeligere.
De to situationer, der kræver dataintegration mere end nogen anden, er inden for erhvervslivet og forskningsområdet. I erhvervslivet kræver fusionering af afdelinger eller virksomheder at kombinere de tidligere separate oplysninger i en enkelt struktur. Denne form for integration er generelt meget vanskelig, medmindre de oprindelige grupper brugte lignende software og havde lignende informationsmål.
Når dataintegration udføres til forskningsformål, går det generelt meget glattere. Når en forsker giver adgang til sin information til en anden, undersøger de to parter generelt den samme proces. Dette betyder, at de vil bruge lignende metoder til at katalogisere og gemme deres data.
Tidligere var dataintegration et relativt mindre område af datastudier, men dette har ændret sig siden den tidlige del af det 21. århundrede. Når gratis online databaser bliver mere populære og præcise, krymper virksomhederne for at få deres oplysninger i et delbart format. Dette giver dem mulighed for både at frigive deres information i en offentlig form og integrere private versioner af velkendte offentlige grænseflader i deres systemer.