構造マイニングとは
構造マイニングは、半構造化されたデータソースがスキャンされ、その構造の要素が検出されて強調表示されるデータマイニングの一種です。 半構造化データソースは、テーブルの従来のデータベース構造を使用しないデータソースですが、タグとマーカーを介して情報を分離するセマンティック要素があります。 構造マイニングを使用して、データベース、ウェブサイト、その他の多くの形式のコンピューター情報をマイニングして、構造の要素を発見できます。 ユーザーは、ピースが相互に作用する方法、または特定のタグの下で情報を見つける方法を理解するのに役立ちます。 このマイニングは、ユーザーが作成したルールに基づいて、アイテムが何であるかを予測するためにも使用できます。
データマイニングにはさまざまな種類があり、ほとんどは従来の構造化されたソースのマイニングに関係しています。 これには、ほとんどのデータベースに典型的なテーブルとノードを使用するソースが含まれます。 構造マイニングでは、半構造化データのみが使用されます。 この場合、データは、従来のデータベースルールに準拠する構造ではなく、構造を持つWebサイトまたは単純なデータベースからのものです。 データには、各アイテムを適切にマイニングするためのタグまたはマーカーが必要です。
構造マイニングは、半構造化データセットを読み取ることで、構造がどのように相互作用するかを発見できます。 たとえば、各Webサイトにはナビゲーションモデルがあり、ページの相互作用を決定するのはこのモデルです。 構造をマイニングすることにより、ユーザーはこのナビゲーションがどのように機能するかを知ることができ、同様のナビゲーションスキーマの作成に役立ちます。
構造マイニングは、マイニングプログラムにルールを書き込むことでアイテムを見つけるためにも使用できます。 たとえば、書籍データセットがある場合、ユーザーは、インデックスのない書籍はフィクションとして返し、インデックスのある書籍はノンフィクションとして返すというルールを作成できます。 ほとんどのフィクションブックにはインデックスがないため、このルールはデータが何であるかを高精度で予測します。 これは、組織的な方法を備えた半構造化されたセットを見るときにユーザーを支援しますが、ユーザーが探しているものに合うものではありません。
半構造化ユニットの構造を把握した後、ユーザーは通常、それを別の半構造化ユニットと比較します。 ユーザーがビジネスWebサイトを持っている場合、ユーザーは別のビジネスWebサイトをマイニングしてナビゲーションとリンクを作成し、そのWebサイトがどのように似ているかを確認できます。 マイニングされた情報を比較することにより、ユーザーは構造の効率を高める方法を見つけることができます。