Skip to main content

Что такое стоп-слово?

В компьютерных и онлайн-приложениях стоп-слово - это слово, которое отфильтровывается во время обработки текста определенного типа, например, во время запуска поиска в Интернете. Известный как один из компонентов обработки естественного языка или НЛП, идея этого типа фильтрации заключается в том, чтобы помочь ускорить поиск, исключив из запроса общие статьи речи. Вместо этого поисковая система использует простой маркер, чтобы отметить наличие слова в текстовой строке, но не препятствует тому, чтобы этот маркер включал эту страницу в результаты поиска.

Один из способов понять, как стоп-слова могут усложнить функцию поисковых систем, - рассмотреть тот факт, что при проведении поиска механизм будет рассматривать каждое слово, которое включено в поисковый запрос, представленный пользователем. В рамках этого рассмотрения движок ищет страницы, содержащие каждое слово. Это означает, что если поисковый запрос содержит три слова, механизм выполняет три пролистывания Интернета, в конечном итоге отдавая приоритет страницам, включающим все три слова.

Например, для поиска, такого как «дом на холме», потребуется, чтобы механизм выполнял поиск по каждому слову в последовательности, а некоторые даже дважды выполняли поиск по стоп-слову «the». Это требует времени и ресурсов, которые могут быть направлены на помощь в других поисках по ключевым словам, которые в настоящее время проводят другие конечные пользователи. Используя маркеры для замены «и» во время поиска, механизм может выделять меньше ресурсов и при этом возвращать результаты, которые, скорее всего, удовлетворят конечного пользователя.

Хотя стоп-слово иногда называют ядовитым словом , на самом деле нет ничего особенно неправильного в том, чтобы включать в текст статьи, используемые для проведения обысков, что-то особенное. Использование стоп-слова или слов в качестве части поискового запроса может усложнить процесс индексации поисковой системы при попытке извлечь данные, которые соответствуют критериям поиска. Тем не менее, конечный пользователь вряд ли увидит большую разницу в извлечении информации, которая в конечном итоге возвращается.

Нет жесткого и быстрого списка стоп-слов, который универсально используется всеми поисковыми системами. Фактически, некоторые поисковые системы вообще не используют какой-либо список стоп-слов как часть задачи обработки на естественном языке. Другие движки, однако, будут широко использовать список стоп-слов в качестве средства более эффективного распределения ресурсов, в то же время возвращая результаты поисковой машины, которые являются точными и, вероятно, будут в высшей степени подходящими для поисковых запросов, отправленных кем-либо, использующим определенный двигатель.