O que é uma palavra de parada?
Em aplicativos online e de computação, uma palavra de parada é filtrada durante o processamento de algum tipo de texto, como durante o início de uma pesquisa online. Conhecida como um componente do processamento de linguagem natural ou PNL, a idéia por trás desse tipo de filtragem é ajudar a acelerar as pesquisas, omitindo artigos de fala comuns da solicitação. Em vez disso, o mecanismo de pesquisa usa um marcador simples para observar a presença da palavra na sequência de texto, mas não impede que a presença desse marcador inclua essa página nos resultados da pesquisa.
Uma maneira de entender como as palavras de parada podem complicar a função dos mecanismos de pesquisa é considerar o fato de que, ao realizar uma pesquisa, o mecanismo considerará todas as palavras incluídas na solicitação de pesquisa enviada pelo usuário. Como parte dessa consideração, o mecanismo procura por páginas que contêm cada palavra. Isso significa que, se a solicitação de pesquisa contiver três palavras, o mecanismo fará três varreduras na Internet, dando prioridade às páginas que incluem todas as três palavras.
Por exemplo, uma pesquisa como "a casa na colina" exigiria que o mecanismo fizesse pesquisas em cada palavra da sequência, com alguns até executando uma pesquisa na palavra de parada "the" duas vezes. Isso demanda tempo e recursos que podem ser desviados para ajudar em outras pesquisas por palavra-chave que outros usuários finais estão conduzindo no momento. Ao usar marcadores para substituir "the" e "on" durante a pesquisa, o mecanismo pode dedicar menos recursos e ainda assim retornar resultados com grande probabilidade de satisfazer o usuário final.
Embora a palavra de parada às vezes seja chamada de veneno , não há realmente nada de errado em incluir artigos de linguagem no texto usado para realizar pesquisas. O uso de uma ou mais palavras de parada como parte da solicitação de pesquisa pode complicar o processo de indexação do mecanismo de pesquisa ao tentar recuperar dados que atendem aos critérios de pesquisa. Ainda assim, não é provável que o usuário final veja muita diferença na extração de informações que é retornada.
Não existe uma lista de palavras de parada rápida e difícil que é usada universalmente por todos os mecanismos de pesquisa. De fato, alguns mecanismos de pesquisa não usam nenhum tipo de lista de palavras de parada como parte da tarefa de processamento de idioma natural. Outros mecanismos, no entanto, farão amplo uso da lista de palavras de parada como um meio de alocar recursos de maneira mais eficiente, enquanto ainda retornam resultados de mecanismos de pesquisa precisos e com probabilidade de serem altamente apropriados para solicitações de pesquisa enviadas por alguém que esteja usando um determinado motor.