スキーママッチングとは
スキーママッチングは、2つ以上の複雑なデータベースまたは情報のセットを互いにマージするために使用される手法です。 データベースと電子情報ストレージの使用がインターネットを介してより大きく複雑になるにつれて、あるデータベースから別のデータベースにデータセットをマージする方法を定義する必要があり、スキーママッチングはそのような手法の1つです。 概念は単純ですが、データマージの現実はかなり複雑です。
「スキーママッチング」という用語は、「スキーママッピング」と同義で使用されます。これは、ユーザーが実際にデータをマッピングするのであり、それらを照合しないためです。 2つ以上のデータベースが一緒にマップされ、各データベースの同様の側面が相互にマップされます。 データをマージする最も一般的な方法は、正確な参照を使用することです。 このスタイルのマージの例は、あるデータベースの名前列を別のデータベースの名前列と結合することです。
マージは通常、人やコンピューターにとってそれほど単純ではありません。 大量のデータをフィルタリング、結合、使用する必要があるため、複数のデータベースではなく1つのデータベースを用意することが不可欠です。 スキーママッピングは、この退屈なプロセスを自動化してより効率的にすることに重点を置いています。 スキーマの一致が必要な例として、あるデータベースに「学生の専攻」フィールドがあり、別のデータベースに「学生の専攻」フィールドがある場合があります。 それは同じ情報ですが、タイトルがわずかに異なるため、それをブレンドする作業が複雑になります。
スキーママッチングは、データベースをマージするこの複雑なプロセスを、事前統合、比較、適合、およびマージの4つのステップに分割します。 複数のデータベースをマージする前に、類似点と相違点を分析する必要があります。 スキーママッチングの領域では、これは事前統合として知られています。 コンピューターは、最も効率的な統合方法の決定を開始します。
次に、コンピューターは、より詳細なレベルでスキームを相互に比較することにより、スキームを評価します。 比較ステップでは、コンピューターは各データベースエントリを調べて、競合の可能性がある場所を判断します。 この例は、「学生の興味」フィールドに「医師」がリストされ、別のデータベースに「医師」としてリストされている場合です。 人は情報が同じであると認識する可能性がありますが、データベースツールの場合、それらは2つの別個のエンティティです。
コンピューターは、潜在的な競合をすべて特定したら、問題を解決しようと前進できます。 これは、「医師」のすべてのインスタンスを「医師」に変更するのと同じくらい簡単です。 実際には、プロセスはかなり複雑です。
すべての競合が修正されると、コンピューターはスキーマ一致プロセスでデータのマージを続行できます。 この段階で、2つ以上のデータベースが1つの大きなデータベースにマージされます。 すべてがうまくいけば、統合中およびデータベースへの将来のアクセス中に競合やエラーは発生しません。