Skip to main content

통계 데이터 마이닝이란 무엇입니까?

지식 또는 데이터 발견이라고도하는 통계 데이터 마이닝은 정보를 수집하고 분석하는 전산화 된 방법입니다.데이터 마이닝 도구는 데이터를 가져 와서 정보를 분류하여 의약품, 컴퓨터 프로그래밍, 비즈니스 프로모션 및 로봇 설계와 같은 중요한 응용 프로그램에서 사용할 수있는 패턴 또는 상관 관계를 발견합니다.통계 데이터 마이닝 기술은 복잡한 수학 및 복잡한 통계 프로세스를 사용하여 분석을 만듭니다.

데이터 마이닝에는 5 가지 주요 단계가 포함됩니다.첫 번째 데이터 마이닝 애플리케이션은 통계 데이터를 수집하고 정보를 창고 유형 프로그램에 배치합니다.다음으로 창고의 데이터는 구성되어 관리 시스템을 만듭니다.다음 단계는 관리되는 데이터에 액세스하는 방법을 만듭니다.그런 다음 네 번째 단계는 데이터 마이닝 회귀라고도 알려진 데이터를 분석하기위한 소프트웨어를 개발하는 반면, 최종 단계는 통계 데이터를 실용적으로 사용하거나 해석하는 것을 용이하게합니다. 일반적으로 데이터 마이닝 기술은 분석 및 트랜잭션 데이터 시스템을 통합합니다.분석 소프트웨어는 개방형 사용자 질문을 사용하여 두 유형의 데이터 시스템을 정렬합니다.개방형 질문은 수많은 답변을 허용하므로 프로그래머는 분류 결과에 영향을 미치지 않습니다.프로그래머는 전반적인 초점을 사용하여 정보를 분류하는 데 도움이되는 질문 목록을 만듭니다. 그런 다음 클래스 및 데이터 클래스 개발, 데이터에서 발견 된 협회 및 협회를 기반으로 패턴 및 트렌드를 정의하려는 시도를 기반으로합니다.예를 들어, Google은 온라인 광고 배치를 돕기 위해 사용자 구매 습관에 대한 정보를 수집합니다.이 구매자 데이터를 정렬하는 데 사용되는 개방형 질문은 인터넷 사용자의 선호도 또는 시청 습관에 중점을 둡니다. 컴퓨터 과학자와 프로그래머는 수집 된 통계 데이터 분석에 중점을 둡니다.의사 결정 트리, 인공 신경 네트워크, 가장 가까운 이웃 방법, 규칙 유도, 데이터 시각화 및 유전자 알고리즘의 생성은 모두 통계적으로 실조 된 데이터를 사용합니다.이 분류 시스템은 분석 데이터 프로그램에 의해 발견 된 연관성을 해석하는 데 도움이됩니다.통계 데이터 마이닝은 가정용 컴퓨터에서 소규모로 수행 할 수있는 소규모 프로젝트를 포함하지만 대부분의 데이터 마이닝 연관 세트는 너무 커서 데이터 마이닝 회귀가 너무 복잡하여 슈퍼 컴퓨터 또는 고속 컴퓨터 네트워크가 필요합니다.

통계 데이터 마이닝은 운영 데이터, 비 수술 데이터 및 메타 데이터를 포함한 세 가지 일반적인 유형의 데이터를 수집합니다.의류 상점에서 운영 데이터는 회계, 판매 및 재고 관리와 같은 비즈니스를 운영하는 데 사용되는 기본 데이터입니다.비즈니스와 간접적으로 관련된 비 수술 데이터에는 미래의 판매량 추정치 및 전국 의류 시장에 대한 일반 정보가 포함됩니다.메타 데이터는 데이터 자체와 관련이 있습니다.메타 데이터를 사용하는 프로그램은 의류 구매자 또는 고객이 좋아하는 색상의 성별 또는 지리적 위치에 따라 고객을 분류에 분류 할 수 있습니다. 해당 데이터가 수집 된 경우 데이터 마이닝 응용 프로그램이 매우 정교하고 통계 데이터 마이닝 도구가 가능할 수 있습니다.광범위한 실제 응용 프로그램이 있습니다.질병 발생에 대한 연구가 한 예입니다.2000 년 데이터 마이닝 프로젝트는 캐나다 온타리오에서 Cryptosporidium의 질병 발생을 분석하여 질병 사례의 증가 원인을 결정했습니다.데이터 마이닝의 결과는 박테리아 발병을 국소 수위 조건과 적절한 도시 수처리의 부족과 연결하는 데 도움이되었습니다.Biosurveillance라는 분야는 역학 데이터 마이닝을 사용하여 단일 질병의 발생을 식별합니다.

컴퓨터 프로그래머와 디자이너는 또한 확률 및 통계 데이터 분석에 대한 연구를 사용하여 기계 및 컴퓨터 프로그램을 개발합니다.Google 인터넷 검색 엔진은 통계 데이터 MI를 사용하여 설계되었습니다.닝.Google은 프로그램 업데이트 및 응용 프로그램을 만들기 위해 데이터 마이닝을 계속 수집하고 사용합니다.