중지 단어 란 무엇입니까?
컴퓨팅 및 온라인 응용 프로그램에서 중지 단어 는 온라인 검색 시작과 같은 일부 유형의 텍스트를 처리하는 동안 필터링되는 단어입니다. 자연어 처리 또는 NLP의 한 구성 요소로 알려진이 유형의 필터링의 기본 개념은 요청에서 일반적인 음성 기사를 생략하여 검색을 신속하게 수행하는 것입니다. 대신, 검색 엔진은 간단한 마커를 사용하여 텍스트 문자열에 단어의 존재를 기록하지만 해당 마커의 존재가 검색 결과에 해당 페이지를 포함시키는 것을 막지는 않습니다.
중지 단어가 검색 엔진의 기능을 복잡하게 만드는 방법을 이해하는 한 가지 방법은 검색을 수행 할 때 엔진이 사용자가 제출 한 검색 요청에 포함 된 모든 단어를 고려한다는 사실을 고려하는 것입니다. 이러한 고려 사항의 일부로 엔진은 각 단어가 포함 된 페이지를 찾습니다. 즉, 검색 요청에 세 단어가 포함 된 경우 엔진은 인터넷을 세 번 쓸어내어 결국 세 단어를 모두 포함하는 페이지에 우선 순위를 부여합니다.
예를 들어,“언덕에있는 집”과 같은 검색은 엔진이 순서대로 각 단어를 검색해야하며 일부는 정지 단어“the”를 두 번 검색해야합니다. 다른 최종 사용자가 현재 수행하고있는 다른 키워드 검색에 도움이 될 수있는 시간과 리소스가 필요합니다. 검색하는 동안 마커를 사용하여 "the"와 "on"을 바꾸면 엔진이 더 적은 리소스를 소비하고 최종 사용자를 만족시킬 가능성이 높은 결과를 계속 반환 할 수 있습니다.
중지 단어는 때때로 독 단어 라고도하지만 검색을 수행하는 데 사용되는 텍스트에 음성 기사를 포함시키는 데는 특히 잘못된 것이 없습니다. 검색 요청의 일부로 정지 단어를 사용하면 검색 기준에 맞는 데이터를 검색하려고 할 때 검색 엔진 색인 작성 프로세스가 복잡해질 수 있습니다. 그럼에도 불구하고 최종 사용자는 궁극적으로 반환되는 정보 추출에서 큰 차이를 볼 수 없습니다.
모든 검색 엔진이 보편적으로 사용하는 강력하고 빠른 단어 목록은 없습니다. 실제로 일부 검색 엔진은 자연어 처리 작업의 일부로 어떤 유형의 중지 단어 목록도 사용하지 않습니다. 그러나 다른 엔진은보다 효율적인 방식으로 리소스를 할당하는 수단으로 스톱 단어 목록을 충분히 사용하면서도 특정 검색 엔진을 사용하는 사람이 제출 한 검색 요청에 정확하고 매우 적합한 검색 엔진 결과를 계속 반환합니다. 엔진.