데이터 마이닝 프로세스 란 무엇입니까?

데이터 마이닝 프로세스는 많은 양의 데이터에서 통계적으로 중요한 패턴을 찾아내는 도구입니다. 일반적으로 준비, 데이터 탐색, 모델 구축, 배포 및 검토를 포함한 5 가지 주요 단계가 포함됩니다. 프로세스의 각 단계는 서로 다른 기술 세트를 포함하지만 대부분 통계 분석을 사용합니다.

데이터 마이닝 프로세스를 시작하기 전에 연구원들은 일반적으로 연구 목표를 설정합니다. 이 준비 단계는 일반적으로 어떤 유형의 데이터를 연구해야하는지, 어떤 데이터 마이닝 기술을 사용해야하는지, 결과가 어떤 형태를 취할지를 결정합니다. 프로세스의 초기 단계는 유용한 정보를 수집하는 데 중요합니다.

데이터 마이닝 프로세스의 다음 단계는 탐색입니다. 이 단계에는 일반적으로 정보웨어 하우스 또는 수집 엔티티에서 필요한 데이터를 수집하는 작업이 포함됩니다. 그런 다음 마이닝 전문가는 일반적으로 분석을 위해 원시 데이터 세트를 준비합니다. 이 단계는 일반적으로 모든 데이터를 수집, 정리, 구성 및 확인하여 오류가 발생합니다.

이 준비된 데이터는 일반적으로 데이터 마이닝 프로세스, 모델 구축의 세 번째 단계에 들어갑니다. 이를 위해 연구원들은 일반적으로 작은 테스트 데이터 샘플을 취하여 다양한 데이터 마이닝 기술을 적용합니다. 모델링 단계는 종종 원하는 결과를 얻는 데 필요한 최상의 통계 분석 방법을 결정하는 데 사용됩니다.

데이터 마이닝 프로세스에 적용 할 수있는 네 가지 주요 기술이 있습니다. 첫 번째는 분류로, 데이터를 사전 정의 된 그룹 또는 범주로 정렬합니다. 클러스터링이라는 두 번째 기술에서 연구자들은 컴퓨터가 원하는대로 데이터를 그룹으로 구성 할 수 있습니다. 세 번째 데이터 마이닝 기술은 변수 간의 연관을 찾습니다. 네 번째는 일반적으로 미래 추세를 예측하는 데 사용될 수있는 데이터의 순차적 패턴을 찾습니다.

데이터 마이닝 프로세스의 마지막 단계는 배포입니다. 이를 위해 모델에서 선택한 기술이 더 큰 데이터 세트에 적용되고 결과가 분석됩니다. 이 단계에서 제공되는 보고서에는 일반적으로 데이터 세트 내에 존재하는 분류, 클러스터, 연관 또는 순차 패턴을 포함하여 전체 프로세스에서 발견 된 패턴이 표시됩니다.

검토는 종종 중요한 최종 단계입니다. 프로세스의이 단계에는 일반적으로 새로운 데이터 세트로 마이닝 모델을 반복하여 기본 세트가 전체 데이터 모집단을 나타내는 지 확인합니다. 데이터 표본이 정확하게 나타내지 않으면 결과는 더 큰 모집단의 추세를 예측할 수 없습니다.

데이터 마이닝 프로세스 란 무엇입니까?

이 문서가 도움이 되었나요?