통계 데이터 마이닝이란 무엇입니까?

지식 또는 데이터 검색이라고도하는 통계 데이터 마이닝은 정보를 수집하고 분석하는 전산화 된 방법입니다. 데이터 마이닝 도구는 데이터를 가져 와서 정보를 분류하여 의학, 컴퓨터 프로그래밍, 비즈니스 프로모션 및 로봇 디자인과 같은 중요한 응용 프로그램에서 사용할 수있는 패턴 또는 상관 관계를 발견합니다. 통계 데이터 마이닝 기술은 복잡한 수학과 복잡한 통계 프로세스를 사용하여 분석을 만듭니다.

데이터 마이닝에는 5 가지 주요 단계가 포함됩니다. 첫 번째 데이터 마이닝 애플리케이션은 통계 데이터를 수집하고 해당 정보를웨어 하우스 유형 프로그램에 배치합니다. 다음으로웨어 하우스의 데이터가 구성되고 관리 시스템이 작성됩니다. 다음 단계는 관리 데이터에 액세스하는 방법을 만듭니다. 그런 다음 네 번째 단계는 데이터 마이닝 회귀라고도하는 데이터를 분석하는 소프트웨어를 개발하는 한편, 마지막 단계는 통계 데이터를 실제로 사용하거나 해석하는 것을 용이하게합니다.

일반적으로 데이터 마이닝 기술은 분석 및 트랜잭션 데이터 시스템을 통합합니다. 분석 소프트웨어는 개방형 사용자 질문을 사용하여 두 가지 유형의 데이터 시스템을 정렬합니다. 개방형 질문은 수많은 답변을 허용하므로 프로그래머가 정렬 결과에 영향을 미치지 않습니다. 프로그래머는 전체 초점을 사용하여 정보를 분류하는 데 도움이되는 질문 목록을 만듭니다.

그런 다음 정렬은 데이터의 클래스 및 클러스터 개발, 데이터에서 찾은 연관 및 연관을 기반으로 패턴 및 경향을 정의하려고합니다. 예를 들어 Google은 온라인 광고 게재를 지원하기 위해 사용자의 구매 습관에 대한 정보를 수집합니다. 이 구매자 데이터를 정렬하는 데 사용되는 개방형 질문은 인터넷 사용자의 구매 환경 설정 또는 시청 습관에 중점을 둡니다.

컴퓨터 과학자와 프로그래머는 수집 된 통계 데이터의 분석에 중점을 둡니다. 의사 결정 트리, 인공 신경망, 가장 가까운 이웃 방법, 규칙 유도, 데이터 시각화 및 유전자 알고리즘의 생성은 모두 통계적으로 마이닝 된 데이터를 사용합니다. 이러한 분류 시스템은 분석 데이터 프로그램에 의해 발견 된 연관성을 해석하는 데 도움이됩니다. 통계 데이터 마이닝에는 가정용 컴퓨터에서 소규모로 수행 할 수있는 소규모 프로젝트가 포함되지만 대부분의 데이터 마이닝 연결 세트는 너무 커서 데이터 마이닝 회귀 분석은 너무 복잡하여 슈퍼 컴퓨터 나 고속 컴퓨터 네트워크가 필요합니다.

통계 데이터 마이닝은 운영 데이터, 비 운영 데이터 및 메타 데이터를 포함하여 세 가지 일반 유형의 데이터를 수집합니다. 옷가게에서 운영 데이터는 회계, 판매 및 재고 관리와 같은 비즈니스 운영에 사용되는 기본 데이터입니다. 비즈니스와 간접적으로 관련된 비 운영 데이터에는 향후 판매 추정치 및 국가 의류 시장에 대한 일반 정보가 포함됩니다. 메타 데이터는 데이터 자체와 관련이 있습니다. 메타 데이터를 사용하는 프로그램은 상점 고객을 의류 구매자의 성별 또는 지리적 위치 또는 고객이 선호하는 색상 (데이터가 수집 된 경우)을 기준으로 분류로 분류 할 수 있습니다.

데이터 마이닝 응용 프로그램은 매우 정교 할 수 있으며 통계 데이터 마이닝 도구에는 광범위한 실제 응용 프로그램이있을 수 있습니다. 질병 발생에 대한 연구가 한 예입니다. 2000 년 데이터 마이닝 프로젝트는 캐나다 온타리오에서 크립토스포리디움의 질병 발생을 분석하여 질병 사례의 증가 원인을 확인했습니다. 데이터 마이닝의 결과는 박테리아 발생을 현지 수질 조건과 적절한 도시 수처리 부족과 연결하는 데 도움이되었습니다. "생체 감시 (biosurveillance)"라는 분야는 역학적 데이터 마이닝을 사용하여 단일 질병의 발생을 식별합니다.

컴퓨터 프로그래머와 설계자는 확률과 통계 데이터 분석 연구를 통해 기계와 컴퓨터 프로그램을 개발합니다. Google 인터넷 검색 엔진은 통계 데이터 마이닝을 사용하여 설계되었습니다. Google은 데이터 마이닝을 계속 수집하여 사용하여 프로그램 업데이트 및 응용 프로그램을 만듭니다.

통계 데이터 마이닝이란 무엇입니까?

이 문서가 도움이 되었나요?