데이터 마이닝 분류 란 무엇입니까?
데이터 마이닝 분류는 데이터 마이닝 프로세스의 한 단계입니다. 특정 주요 특성에 따라 항목을 그룹화하는 데 사용됩니다. 가장 가까운 이웃 분류, 의사 결정 트리 학습 및 지원 벡터 머신을 포함하여 데이터 마이닝 분류에 사용되는 몇 가지 기술이 있습니다.
데이터 마이닝은 연구원들이 데이터에서 패턴을 추출하는 데 사용하는 방법입니다. 일반적으로 대표 샘플은 데이터 풀에서 선택한 다음 패턴을 찾기 위해 조작 및 분석됩니다. 데이터 마이닝 분류 외에도 연구원은 클러스터링, 회귀 및 규칙 학습을 사용하여 데이터를 분석 할 수도 있습니다.
데이터 마이닝 분류에 사용할 수있는 몇 가지 알고리즘이 있습니다. 가장 가까운 이웃 분류는 가장 간단한 데이터 마이닝 분류 알고리즘 중 하나입니다. 훈련 세트에 의존합니다. 훈련 세트는 특정 변수에주의를 기울 이도록 컴퓨터를 훈련시키는 데 사용되는 일련의 데이터입니다. 가장 가까운 이웃 분류에서 컴퓨터는 모든 데이터를 입력에 가장 가까운 데이터를 포함하는 그룹의 일부로 분류합니다.
의사 결정 트리 학습은 분기 모델을 사용하여 데이터를 분류합니다. 컴퓨터는 기본적으로 데이터에 대한 일련의 질문을합니다. 첫 번째 질문에 대한 답이 사실이면 질문 2a를 묻습니다. 대답이 거짓이면 질문 2b를 묻습니다. 이 방법을 사용하면 분기 경로 트리가 형성됩니다.
Naive Bayes 분류는 확률에 의존합니다. 각 데이터에 대해 일련의 질문을 한 다음이 답변을 사용하여 데이터가 특정 분류에 속할 확률을 결정합니다. 이는 첫 번째 질문에 대한 답변이 다음에 어떤 질문을 할 것인지에 영향을 미치지 않기 때문에 의사 결정 트리 학습과 다릅니다.
보다 복잡한 데이터 마이닝 분류 방법에는 신경망 및 지원 벡터 머신이 포함됩니다. 이러한 방법은 컴퓨터 기반 모델로 직접 수행하기 어려울 수 있습니다. 신경망은 인간의 두뇌를 모방하기 때문에 인공 지능 프로그래밍에 종종 사용됩니다. 패턴을 찾은 다음 정보를 분류하는 일련의 노드를 통해 정보를 필터링합니다.
서포트 벡터 머신은 훈련 샘플을 사용하여 정보를 분류하는 모델을 작성합니다. 일반적으로 카테고리 사이에 넓은 공간이있는 산점도로 표시됩니다. 새로운 정보가 기계에 공급되면 그래프에 그 정보가 표시됩니다. 그런 다음 정보가 그래프에서 가장 가까운 범주에 따라 데이터가 분류됩니다. 이 방법은 두 가지 옵션 중에서 선택할 수있는 경우에만 작동합니다.