문서 분류 란 무엇입니까?
웹 브라우저가 데이터를 구성 해야하는 것처럼 사용자가 검색에 결과를 얻을 수 있으므로 문서 분류를 통해 조직은 중요한 정보를 간단하게 찾을 수 있도록합니다. 문서 분류는 특정 키워드가 다른 의미를 가질 수 있기 때문에 검색 엔진 알고리즘을 사용하는 것과 다르게 수행됩니다. 이러한 방법은 특정 비즈니스 문서의 맥락을 측정 할 수 있어야합니다. 감독 된 문서 분류를 통해 사용자는 자동화 된 시스템이 모델로 사용할 수있는 일련의 문서를 표시합니다. 감독되지 않은 방법에서는 비슷한 단어와 문구를 기반으로 수학적으로 구성됩니다.
사용자는 규칙 기반 분류가 사용될 때 문서 분류를 가장 많이 제어합니다. 컨텍스트, 범주 및 규칙은 수동으로 입력 된 것에 따라 생성됩니다. 문서 검색 과정에서 모든 것이 사용자가 지정한 정확한 규칙에 따라 분류됩니다. 감독 된 방법 중에도 카테고리를 할당해야합니다. 단계 of 실제로 검색 시스템이 따라야하는 규칙을 작성하지만 자동으로 완료됩니다.
감독되지 않은 분류라고도하는 문서 클러스터링을 사용하면 그룹화 및 카테고리가 모두 자동으로 수행됩니다. 규칙의 수동 입력은 없으며, 이는 유익하고 불리한 일이 될 수 있습니다. 이 프로세스는 규칙을 작성할 필요가 없으므로 시간을 절약하며 처음에는 비슷한 것으로 간주되지 않은 유사한 문서가 발견됩니다. 단점은 원래 같은 범주에 있지 않은 문서가 함께 나타날 수 있다는 것입니다. 더 자동화 된 접근 방식은 컴퓨터 시스템에 대해 더 많은 과세입니다.
두 가지 다른 방법 사이의 균형을 찾기 위해 컴퓨터 전문가는 반 감독 문서 분류 방법을 고안했습니다. 수동으로 분류 된 문서는 레이블이 지정되지 않은 문서 세트와 결합됩니다. 협회 할 수있는 프로그램둘 다의 TE 정보는 데이터를 사용하여 각 문서가 분류되는 방식을 알아 봅니다. 정보 검색은 분류 프로세스에 대한 약간의 제어에 의해 도움이됩니다. 문서 클러스터링은 문구를 사용하여 접미어 트리 클러스터링과 같은 클러스터, 특히 온라인으로 저장된 문서에 대해 더 효율적으로 만들어집니다.
정보 과학은 데이터 마이닝을보다 효율적으로 만드는 다양한 방법을 탐구했습니다. 대부분의 비즈니스는 인터넷에 연결되어 있으므로 관련 문서를 찾으려면 웹 마이닝이 가능한 한 시간이 거의 필요하지 않습니다. 컴퓨터 과학자들은 또한 계층 적 방식으로 문서를 구성하기 위해 여러 가지 알고리즘을 만들었습니다. 각각은 자체 방식으로 효과적이며 문서 분류는 다양한 소프트웨어 프로그램과 사용자 정의 기업 방법에 의해 계속 연구되고 정의됩니다.