Wat komt overeen met schema?
Schemamatching is een techniek die wordt gebruikt om twee of meer complexe databases of sets van gegevens met elkaar samen te voegen. Aangezien het gebruik van databases en elektronische informatieopslag via internet groter en complexer wordt, moeten er methoden worden gedefinieerd voor het samenvoegen van gegevenssets van de ene database naar de andere, en schema-matching is zo'n techniek. Het concept is eenvoudig, maar de realiteit van het samenvoegen van gegevens is vrij complex.
De term "schema-matching" wordt synoniem gebruikt met "schema-mapping", omdat gebruikers feitelijk gegevens in kaart brengen, niet overeenkomen. Twee of meer databases worden aan elkaar toegewezen en vergelijkbare aspecten van elke database worden aan elkaar toegewezen. De meest gebruikelijke manier om gegevens samen te voegen is door exacte referenties te gebruiken. Een voorbeeld van deze stijl van samenvoegen is het combineren van de naamkolom van de ene database met de naamkolom van een andere database.
Samenvoegen is meestal niet zo eenvoudig, voor mensen of computers. Omdat er zoveel gegevens moeten worden gefilterd, gecombineerd en gebruikt, is het essentieel om één database in plaats van meerdere databases te hebben. Schemamapping richt zich op het automatiseren en efficiënter maken van dit moeizame proces. Een voorbeeld van waar schema-matching noodzakelijk is, kan zijn wanneer de ene database een "student's major" veld heeft en een andere database een "student's field of study" veld heeft. Het is dezelfde informatie, maar de enigszins verschillende titels bemoeilijken de inspanningen om het te combineren.
Schema matching breekt dit complexe proces van het samenvoegen van databases in vier stappen: pre-integratie, vergelijking, conformeren en samenvoegen. Voordat meerdere databases kunnen worden samengevoegd, moeten deze worden geanalyseerd op overeenkomsten en verschillen. Op het gebied van schema-matching staat dit bekend als pre-integratie. De computer begint de meest efficiënte integratiemethode te bepalen.
Vervolgens evalueert de computer de schema's door ze op een meer gedetailleerd niveau met elkaar te vergelijken. In de vergelijkingsstap kijkt de computer naar elke database-invoer en bepaalt waar conflicten kunnen optreden. Een voorbeeld hiervan is wanneer een veld 'interesse van de student' 'arts' weergeeft en een andere database het als 'arts' weergeeft. Een persoon zou de informatie waarschijnlijk als dezelfde herkennen, maar voor database-tools zijn het twee afzonderlijke entiteiten.
Nadat de computer alle potentiële conflicten heeft bepaald, kan deze verder gaan met het proberen de problemen op te lossen. Dit kan zo simpel zijn als het veranderen van alle instanties van "arts" in "arts". In werkelijkheid is het proces aanzienlijk complexer.
Nadat alle conflicten zijn opgelost, kan de computer de gegevens samenvoegen in het schema-matchingproces. In dit stadium worden twee of meer databases samengevoegd tot één grote database. Als alles goed gaat, zullen er geen conflicten of fouten optreden tijdens integratie en toekomstige toegang tot de database.