ストップワードとは何ですか?
コンピューティングおよびオンラインアプリケーションでは、a stop word は、検索オンラインの開始中など、何らかのタイプのテキストの処理中に除外される単語です。 自然言語処理またはNLPの1つのコンポーネントとして知られているこのタイプのフィルタリングの背後にあるアイデアは、リクエストから一般的な言論記事を省略して検索を促進するのに役立つことです。 代わりに、検索エンジンは単純なマーカーを使用してテキスト文字列に単語の存在をメモしますが、そのマーカーの存在が検索結果にそのページを含めることを妨げません。
検索エンジンの機能を停止する方法を理解する1つの方法は、検索を実行するときに、ユーザーが送信した検索要求に含まれるすべての単語を検索するという事実を考慮することです。 その考慮事項の一環として、エンジンは各単語を含むページを探します。 つまり、検索リクエストに3つの単語が含まれている場合、エンジンはインターネットを3つ掃引します。3つの単語すべてを含むページを優先します。
たとえば、「The House On the Hill」などの検索では、エンジンがシーケンス内の各単語で検索を行う必要があります。 これにより、他のエンドユーザーが現在行っている他のキーワード検索を支援するために迂回できる時間とリソースがかかります。 検索中にマーカーを使用して「The」と「ON」を交換することにより、エンジンはリソースを減らし、エンドユーザーを満足させる可能性が高い結果を返すことができます。
停止単語は時々毒の単語と呼ばれますが、検索の実施に使用されるテキストに言語記事を含めることに特に問題はありません。 検索要求の一部として停止単語または単語を使用すると、ATTEが検索基準を満たすデータを取得するためのMPTING。 それでも、エンドユーザーは、最終的に返される情報抽出に大きな違いが見られない可能性があります。
すべての検索エンジンが普遍的に使用するハードで高速のストップワードリストはありません。 実際、一部の検索エンジンでは、自然言語処理タスクの一部として、いかなるタイプのストップワードリストも使用していません。 ただし、他のエンジンは、より効率的な方法でリソースを割り当てる手段としてストップワードリストを十分に使用し、特定のエンジンを使用している人が提出した検索リクエストに正確で非常に適切な検索エンジンの結果を返します。