Hva samsvarer med skjemaet?
Schema matching er en teknikk som brukes til å slå sammen to eller flere komplekse databaser eller sett med informasjon til hverandre. Når bruken av databaser og elektronisk informasjonslagring blir større og mer kompleks gjennom Internett, må det defineres metoder for å slå sammen datasett fra en database til en annen, og skjema-samsvar er en slik teknikk. Konseptet er enkelt, men realiteten av sammenslåing av data er ganske sammensatt.
Begrepet "skjema matching" brukes synonymt med "skjema kartlegging", fordi brukere faktisk kartlegger data, og ikke samsvarer med dem. To eller flere databaser er kartlagt sammen, og lignende aspekter av hver database blir kartlagt i hverandre. Den vanligste måten å slå sammen data er ved å bruke eksakte referanser. Et eksempel på denne sammenslåingsstilen er å kombinere navnekolonnen til en database med navnekolonnen i en annen database.
Sammenslåing er vanligvis ikke så enkelt, for mennesker eller datamaskiner. Med så mye data som trenger å bli filtrert, kombinert og brukt, er det viktig å ha en database i stedet for flere databaser. Skjema-kartlegging fokuserer på å gjøre denne kjedelige prosessen automatisert og mer effektiv. Et eksempel på hvor skjema-matching er nødvendig kan være når en database har et "studentens hovedfelt" og en annen database har et "studentens studieretningsfelt". Det er den samme informasjonen, men de litt forskjellige titlene kompliserer innsatsen for å blande den.
Skjema-matching deler denne komplekse prosessen med å slå sammen databaser i fire trinn: pre-integrasjon, sammenligning, konformasjon og sammenslåing. Før flere databaser kan slås sammen, må de analyseres for likheter og forskjeller. Når det gjelder skjema matching, er dette kjent som pre-integrasjon. Datamaskinen begynner å bestemme den mest effektive integrasjonsmetoden.
Deretter evaluerer datamaskinen ordningene ved å sammenligne dem med hverandre på et mer detaljert nivå. I sammenligningstrinnet ser datamaskinen på hver databaseoppføring og bestemmer hvor det kan være konflikter. Et eksempel på dette er når en "studentens interesse" -felt lister opp "lege" og en annen database viser det som "lege." En person vil sannsynligvis gjenkjenne informasjonen som den samme, men for databaseverktøy er de to separate enheter.
Når datamaskinen har bestemt alle potensielle konflikter, kan den gå videre med å prøve å løse problemene. Dette kan være så enkelt som å endre alle forekomster av "lege" til "lege." I virkeligheten er prosessen vesentlig mer sammensatt.
Når alle konflikter er løst, kan datamaskinen fortsette med å slå sammen dataene i skjema-matching prosessen. På dette stadiet blir to eller flere databaser slått sammen til en stor database. Hvis alt går bra, vil ingen konflikter eller feil oppstå under integrering og fremtidig tilgang til databasen.