O que é uma palavra de parada?
Em aplicativos de computação e on -line, a Stop Word é uma palavra filtrada durante o processamento de algum tipo de texto, como durante o início de uma pesquisa on -line. Conhecido como um componente do processamento de linguagem natural ou PNL, a idéia por trás desse tipo de filtragem é ajudar a agilizar as pesquisas, omitindo artigos de fala comuns da solicitação. Em vez disso, o mecanismo de pesquisa usa um marcador simples para observar a presença da palavra na sequência de texto, mas não impede que a presença desse marcador inclua essa página nos resultados da pesquisa.
Uma maneira de entender como as palavras de parada podem complicar a função dos mecanismos de pesquisa é considerar o fato de que, ao realizar uma pesquisa, o mecanismo considerará cada palavra incluída na solicitação de pesquisa enviada pelo usuário. Como parte dessa consideração, o motor procura páginas que contêm cada palavra. Isso significa que, se a solicitação de pesquisa contiver três palavras, o motor faz três varreduras da Internet, eVentualmente, dando prioridade às páginas que incluem todas as três palavras.
Por exemplo, uma pesquisa como "The House on the Hill" exigiria que o motor fizesse pesquisas em cada palavra na sequência, com algumas até mesmo executando uma pesquisa na palavra parada "the" duas vezes. Isso leva tempo e recursos que podem ser desviados para ajudar em outras pesquisas de palavras -chave que outros usuários finais estão atualmente conduzindo. Usando marcadores para substituir "o" e o "ON" durante a pesquisa, o mecanismo pode dedicar menos recursos e ainda retornar os resultados que provavelmente satisfazem o usuário final.
Embora a palavra de parada às vezes seja chamada de palavra de veneno , não há realmente nada particularmente errado em incluir artigos de fala no texto usado para realizar pesquisas. O uso de uma palavra de parada ou palavras como parte da solicitação de pesquisa pode complicar o processo de indexação do mecanismo de pesquisa quando atteMPTing para recuperar dados que atendem aos critérios de pesquisa. Ainda assim, é provável que o usuário final veja muita diferença na extração de informações que finalmente é retornada.
Não há listagem de palavras de parada dura e rápida que seja usada universalmente por todos os mecanismos de pesquisa. De fato, alguns mecanismos de pesquisa não usam nenhum tipo de lista de palavras de parada como parte da tarefa de processamento de linguagem natural. Outros motores, no entanto, farão amplo uso da lista de palavras de parada como um meio de alocar recursos de maneira mais eficiente, enquanto ainda retorna os resultados dos mecanismos de pesquisa que são precisos e provavelmente altamente apropriados para solicitações de pesquisa enviadas por qualquer pessoa que use um mecanismo específico.