Wat is schema -matching?

schema -matching is een techniek die wordt gebruikt om twee of meer complexe databases of sets informatie in elkaar samen te voegen. Naarmate het gebruik van databases en elektronische informatieopslag groter en complexer wordt via internet, moeten er gedefinieerde methoden zijn voor het samenvoegen van sets van gegevens van de ene database naar de andere, en schema -matching is zo'n techniek. Het concept is eenvoudig, maar de realiteit van het samenvoegen van gegevens is redelijk complex.

De term "schema -matching" wordt synoniem gebruikt met "schemamapping", omdat gebruikers daadwerkelijk gegevens in kaart brengen en niet overeenkomen met deze. Twee of meer databases worden in kaart gebracht en vergelijkbare aspecten van elke database worden in elkaar toegewezen. De meest gebruikelijke manier om gegevens samen te voegen, is door exacte referenties te gebruiken. Een voorbeeld van deze stijl van fuseren is het combineren van de naamkolom van de ene database met de naamkolom van een andere database.

samenvoegen is meestal niet zo eenvoudig, voor mensen of computers. Met zoveel gegevens die moeten worden gefilterd, gecombineerd en gebruikt, met O ONE -database in plaats van meerdere databases is essentieel. Schema -mapping richt zich op het geautomatiseerd en efficiënter maken van dit vervelende proces. Een voorbeeld van waar schema -matching nodig is, zou kunnen zijn wanneer een database een "student's major" veld heeft en een andere database een veld "Student's Field of Study" heeft. Het is dezelfde informatie, maar de iets verschillende titels bemoeilijken de inspanningen om het te mengen.

schema-matching breekt dit complexe proces van het samenvoegen van databases in vier stappen: pre-integratie, vergelijking, conforming en samenvoegen. Voordat meerdere databases kunnen worden samengevoegd, moeten ze worden geanalyseerd op overeenkomsten en verschillen. In het rijk van schemale matching staat dit bekend als pre-integratie. De computer begint de meest efficiënte integratiemethode te bepalen.

Vervolgens evalueert de computer de schema's door ze met elkaar op een meer gedetailleerd niveau te vergelijken. In de vergelijking SteP, de computer kijkt naar elke database -invoer en bepaalt waar er conflicten kunnen zijn. Een voorbeeld hiervan is wanneer een veld "Student's Interest" "Doctor" vermeldt en een andere database vermeldt het als "arts". Een persoon zou de informatie waarschijnlijk als hetzelfde herkennen, maar voor databasetools zijn het twee afzonderlijke entiteiten.

Zodra de computer alle potentiële conflicten heeft bepaald, kan deze verder gaan met het proberen de problemen op te lossen. Dit kan zo eenvoudig zijn als het veranderen van alle instanties van "arts" in "dokter". In werkelijkheid is het proces aanzienlijk complexer.

Zodra alle conflicten zijn opgelost, kan de computer doorgaan met het samenvoegen van de gegevens in het schema-matchingproces. In dit stadium worden twee of meer databases samengevoegd tot één grote database. Als alles goed gaat, zullen er geen conflicten of fouten optreden tijdens integratie en toekomstige toegang tot de database.

ANDERE TALEN