Wat is data-integratie?
Gegevensintegratie is het samenvoegen van meerdere gegevensbronnen in één gegevensbron. Deze praktijk kost vaak veel tijd en geld, omdat de verschillende gegevensbronnen waarschijnlijk niet compatibel zijn met elkaar. Dingen die zo simpel zijn als verschillende kolomnamen in een spreadsheet zijn voldoende om de datum opnieuw te formatteren. Dit proces komt het meest voor in situaties waarin twee groepen zijn gestart zonder verbinding, maar samen worden geplaatst nadat ze onafhankelijk hebben gewerkt. Gegevensintegratie is een belangrijker onderwerp geworden vanwege de prevalentie van gratis gegevensbronnen en online databases.
Het gegevensgedeelte van gegevensintegratie kan vrijwel alles zijn, zolang het wordt opgeslagen in een computersysteem. De feitelijke inhoud van de gegevens is zelden zo belangrijk als de manier waarop de gegevens worden opgeslagen. Meestal worden de gegevens bewaard in databases, georganiseerde informatiesystemen. Deze systemen bevatten unieke vermeldingen en velden waarmee gebruikers snel informatie kunnen vinden.
De grootste hindernis voor elk data-integratieproces zijn de gegevens zelf. In veel gevallen, toen de gegevens voor het eerst werden ingesteld, was het niet de bedoeling om de gegevensset ooit met een andere samen te voegen. Dit betekent dat hoewel twee datasets naar hetzelfde kunnen verwijzen, ze volledig incompatibel zijn.
Bijna alles maakt databases incompatibel. Iets eenvoudigs als een verschil in presentatie, zoals veldvolgorde of kolombreedte, kan voldoende zijn om een gemakkelijke fusie te voorkomen. Wanneer de gegevens aanzienlijk verschillen, zoals een database die meer of minder informatie bevat, is het samenvoegen veel moeilijker.
De twee situaties die meer dan alle andere om gegevensintegratie vragen, bevinden zich in het bedrijfsleven en in het onderzoek. In de zakenwereld moeten fuserende afdelingen of bedrijven de voorheen afzonderlijke informatie combineren in één structuur. Deze vorm van integratie is over het algemeen erg moeilijk, tenzij de oorspronkelijke groepen vergelijkbare software gebruikten en vergelijkbare informatiedoelen hadden.
Wanneer gegevensintegratie wordt uitgevoerd voor onderzoeksdoeleinden, verloopt deze doorgaans veel soepeler. Wanneer de ene onderzoeker de andere toegang geeft tot zijn informatie, kijken beide partijen over het algemeen naar hetzelfde proces. Dit betekent dat ze vergelijkbare methoden zullen gebruiken om hun gegevens te catalogiseren en op te slaan.
In het verleden was data-integratie een relatief klein gebied van data-studies, maar dit is sinds het begin van de 21e eeuw veranderd. Nu gratis online databases populairder en nauwkeuriger worden, proberen bedrijven hun informatie in een deelbaar formaat te krijgen. Dit stelt hen in staat om zowel hun informatie in een openbare vorm vrij te geven als om privéversies van bekende openbare interfaces in hun systemen te integreren.