統計データマイニングとは何ですか？

統計データマイニングは、知識またはデータ発見とも呼ばれ、情報を収集および分析するコンピューター化された方法です。データマイニングツールはデータを取得し、情報を分類して、薬、コンピュータープログラミング、ビジネスプロモーション、ロボットデザインなどの重要なアプリケーションで使用できるパターンまたは相関を発見します。統計データマイニング手法では、複雑な数学と複雑な統計プロセスを使用して分析を作成します。

データマイニングには5つの主要なステップが含まれます。最初のデータマイニングアプリケーションは統計データを収集し、情報を倉庫型プログラムに配置します。次に、倉庫内のデータが編成され、管理システムが作成されます。次のステップでは、管理されたデータにアクセスする方法が作成されます。次に、4番目のステップでは、データマイニング回帰とも呼ばれるデータを分析するソフトウェアを開発し、最終ステップでは統計データの使用または解釈を実用的に促進します。

一般に、データマイニング技術は、分析データシステムとトランザクションデータシステムを統合します。分析ソフトウェアは、オープンエンドのユーザーの質問を使用して、両方のタイプのデータシステムを並べ替えます。自由回答形式の質問により、数え切れないほどの回答が可能になるため、プログラマーはソートの結果に影響を与えません。プログラマーは、全体的な焦点を使用して情報を分類するのを支援するための質問のリストを作成します。

並べ替えは、データの開発、データに含まれる関連性の開発、および関連性に基づいてパターンと傾向を定義しようとする試みに基づいています。たとえば、Googleはユーザーの購入習慣に関する情報を収集して、オンライン広告の配置を支援しています。このバイヤーデータをソートするために使用される自由回答形式の質問は、インターネットユーザーの購入や視聴習慣の購入に焦点を当てています。

コンピューター科学者とプログラマーは、収集された統計データの分析に焦点を当てています。決定木の作成、artifiシアルニューラルネットワーク、最近隣接法、ルール誘導、データの視覚化、および遺伝的アルゴリズムはすべて、統計的に測定されたデータを使用します。これらの分類システムは、分析データプログラムによって発見された関連付けを解釈するのに役立ちます。統計データマイニングには、ホームコンピューターで小規模で実行できる小さなプロジェクトが含まれますが、ほとんどのデータマイニングアソシエーションセットは非常に大きく、データマイニング回帰は非常に複雑で、スーパーコンピューターまたは高速コンピューターのネットワークが必要です。

統計データマイニングは、運用データ、非手術データ、メタデータを含む3つの一般的なタイプのデータを収集します。衣料品店では、運用データは、会計、販売、在庫管理など、ビジネスの運営に使用される基本的なデータです。間接的にビジネスに関連する非運用データには、将来の販売の見積もりと、国家衣料品市場に関する一般的な情報が含まれています。メタデータはデータ自体に関するものです。プログラムuSing Metaデータは、そのデータが収集された場合、衣料品の購入者または顧客のお気に入りの色の性別や地理的位置に基づいて、顧客を分類に並べ替える可能性があります。

データマイニングアプリケーションは非常に洗練されている可能性があり、統計データマイニングツールには実用的なアプリケーションが広くなる可能性があります。病気の発生の研究は一例です。 2000年のデータマイニングプロジェクトでは、カナダのオンタリオ州のクリプトスポリジウムの疾患発生を分析して、疾患の症例の増加の原因を決定しました。データマイニングの結果は、細菌の発生を地域の水条件に結び付け、適切な都市水処理の欠如を支援しました。「Biosurveillance」と呼ばれるフィールドは、疫学的データマイニングを使用して、単一の疾患の発生を特定します。

コンピュータープログラマーとデザイナーは、確率と統計データ分析の研究を採用して、マシンとコンピュータープログラムを開発しています。 Googleインターネット検索エンジンは、STAを使用して設計されましたTistical Data Mining。 Googleは、データマイニングを収集して使用してプログラムの更新とアプリケーションを作成し続けています。

統計データマイニングとは何ですか？

他の言語

関連記事

どのように我々は助けることができます？