統計データマイニングとは
知識またはデータの発見とも呼ばれる統計データマイニングは、情報を収集および分析するコンピューター化された方法です。 データマイニングツールは、データを取得して情報を分類し、医療、コンピュータープログラミング、ビジネスプロモーション、ロボット設計などの重要なアプリケーションで使用できるパターンまたは相関関係を発見します。 統計データマイニング手法では、複雑な数学と複雑な統計プロセスを使用して分析を作成します。
データマイニングには5つの主要な手順が含まれます。 最初のデータマイニングアプリケーションは、統計データを収集し、その情報をウェアハウスタイプのプログラムに配置します。 次に、ウェアハウス内のデータが整理され、管理システムが作成されます。 次の手順では、管理対象データにアクセスする方法を作成します。 次に、4番目のステップでは、データマイニング回帰とも呼ばれるデータを分析するソフトウェアを開発します。最後のステップでは、実用的な方法で統計データを使用または解釈しやすくします。
一般に、データマイニング技術は、分析データシステムとトランザクションデータシステムを統合します。 分析ソフトウェアは、自由形式のユーザー質問を使用して、両方のタイプのデータシステムをソートします。 自由回答形式の質問では無数の回答が得られるため、プログラマーはソートの結果に影響を与えません。 プログラマーは、全体的な焦点を使用して情報を分類するのに役立つ質問のリストを作成します。
並べ替えは、データのクラスとクラスター、データで見つかった関連付けの開発、および関連付けに基づいてパターンと傾向を定義しようとすることに基づいています。 たとえば、Googleはユーザーの購入習慣に関する情報を収集して、オンライン広告の掲載を支援します。 このバイヤーデータの並べ替えに使用される自由回答形式の質問は、インターネットユーザーの購入設定または表示習慣に焦点を当てています。
コンピューター科学者とプログラマーは、収集された統計データの分析に焦点を当てています。 決定木の作成、人工ニューラルネットワーク、最近傍法、ルール誘導、データの視覚化、および遺伝的アルゴリズムはすべて、統計的にマイニングされたデータを使用します。 これらの分類システムは、分析データプログラムによって発見された関連の解釈を支援します。 統計データマイニングには、ホームコンピューターで小規模に実行できる小規模なプロジェクトが含まれますが、ほとんどのデータマイニングアソシエーションセットは非常に大きく、データマイニング回帰は非常に複雑であるため、スーパーコンピューターまたは高速コンピューターのネットワークが必要です。
統計データマイニングは、運用データ、非運用データ、メタデータを含む3つの一般的なタイプのデータを収集します。 衣料品店では、運用データは、経理、販売、在庫管理など、ビジネスの運営に使用される基本データです。 事業に間接的に関連する非運用データには、将来の売上の推定値と全国の衣料品市場に関する一般情報が含まれます。 メタデータはデータ自体に関係します。 メタデータを使用するプログラムは、データが収集された場合、衣料品購入者の性別または地理的位置、または顧客の好みの色に基づいて、店舗顧客を分類に分類します。
データマイニングアプリケーションは非常に高度なものになる可能性があり、統計データマイニングツールには実用的なアプリケーションが広く普及している場合があります。 病気の発生の研究はその一例です。 2000年のデータマイニングプロジェクトでは、カナダのオンタリオ州で発生したクリプトスポリジウムの病気の発生を分析し、病気の増加の原因を特定しました。 データマイニングの結果は、細菌の発生を地域の水条件と適切な地方自治体の水処理の欠如に結びつけるのに役立ちました。 「バイオサーベイランス」と呼ばれる分野では、疫学的データマイニングを使用して、単一の病気の発生を特定しています。
コンピュータープログラマーとデザイナーは、確率と統計データ分析の研究を使用して、機械とコンピュータープログラムを開発します。 Googleインターネット検索エンジンは、統計データマイニングを使用して設計されました。 Googleは引き続きデータマイニングを収集して使用し、プログラムの更新とアプリケーションを作成します。