データマイニングプロセスとは
データマイニングプロセスは、大量のデータから統計的に有意なパターンを発見するためのツールです。 通常、準備、データ探索、モデル構築、展開、およびレビューを含む5つの主要な手順が含まれます。 プロセスの各ステップにはさまざまな手法が含まれますが、ほとんどの場合、何らかの統計分析が使用されます。
データマイニングプロセスを開始する前に、研究者は通常、研究目標を設定します。 この準備ステップでは、通常、どのタイプのデータを調査する必要があるか、どのデータマイニング手法を使用するか、結果がどのような形式になるかを決定します。 プロセスのこの最初のステップは、有用な情報を収集するために重要です。
データマイニングプロセスの次のステップは探索です。 通常、この手順では、情報ウェアハウスまたはコレクションエンティティから必要なデータを収集します。 次に、マイニングの専門家は通常、分析のために生データセットを準備します。 このステップは、通常、すべてのデータの収集、クリーニング、整理、およびエラーのチェックで構成されます。
この準備されたデータは、通常、データマイニングプロセスの3番目のステップであるモデル構築に入ります。 これを達成するために、研究者は通常、データの小さなテストサンプルを取得し、さまざまなデータマイニング手法をそれらに適用します。 モデリングステップは、多くの場合、目的の結果を達成するために必要な統計分析の最適な方法を決定するために使用されます。
データマイニングプロセスに適用できる主な手法は4つあります。 1つ目は分類で、データを事前に定義されたグループまたはカテゴリに整理します。 クラスタリングと呼ばれる2番目の手法では、研究者はコンピューターが選択したとおりにデータをグループに編成できるようにします。 3番目のデータマイニング手法は、変数間の関連付けを探します。 4番目は通常、将来の傾向を予測するために使用される可能性のあるデータ内の連続パターンを探します。
データマイニングプロセスの最後の手順は展開です。 これを行うために、モデルで選択された手法がより大きなデータセットに適用され、結果が分析されます。 このステップからのレポートには、通常、プロセス全体で見つかったパターンが表示されます。これには、データセット内に存在する分類、クラスター、関連付け、またはシーケンシャルパターンが含まれます。
多くの場合、レビューは重要な最終ステップです。 プロセスのこの段階では、通常、新しいデータセットを使用してマイニングモデルを繰り返し、メインセットがデータの母集団全体を代表するようにします。 データサンプルが正確に表していない場合、結果はより大きな母集団の傾向を予測できません。