ストップワードとは
コンピューティングおよびオンラインアプリケーションでは、 ストップワードとは、オンライン検索の開始時など、何らかのタイプのテキストの処理中に除外される単語です。 自然言語処理またはNLPの1つのコンポーネントとして知られているこのタイプのフィルタリングの背後にある考え方は、リクエストから一般的なスピーチの記事を省略して検索を促進することです。 代わりに、検索エンジンは単純なマーカーを使用してテキスト文字列内の単語の存在を記録しますが、マーカーの存在が検索結果にそのページを含めることを妨げません。
ストップワードが検索エンジンの機能をどのように複雑にするかを理解する1つの方法は、検索を実行するときに、ユーザーが送信した検索リクエストに含まれるすべての単語をエンジンが考慮するという事実を考慮することです。 その検討の一環として、エンジンは各単語を含むページを探します。 つまり、検索要求に3つの単語が含まれている場合、エンジンはインターネットを3回スイープし、最終的に3つの単語すべてを含むページを優先します。
たとえば、「丘の上の家」などの検索では、エンジンがシーケンス内の各単語を検索する必要があり、ストップワード「the」を2回検索する場合もあります。 これは、他のエンドユーザーが現在実施している他のキーワード検索を支援するために流用できる時間とリソースを消費します。 検索中にマーカーを使用して「the」と「on」を置き換えることにより、エンジンはより少ないリソースを費やし、エンドユーザーを満足させる可能性が高い結果を返すことができます。
ストップワードは毒語と呼ばれることもありますが、検索の実行に使用されるテキストに品詞を含めることには、特に問題はありません。 検索要求の一部としてストップワードを使用すると、検索条件を満たすデータを取得しようとするときに、検索エンジンのインデックス作成プロセスが複雑になる場合があります。 それでも、エンドユーザーは、最終的に返される情報抽出に大きな違いを見ることはないでしょう。
すべての検索エンジンで普遍的に使用される、ハードで高速のストップワードリストはありません。 実際、一部の検索エンジンは、自然言語処理タスクの一部としてストップワードリストを一切使用していません。 しかし、他のエンジンは、リソースをより効率的な方法で割り当てる手段としてストップワードリストを十分に活用する一方で、特定のユーザーを使用して送信された検索リクエストに対して正確で非常に適切な検索エンジン結果を返しますエンジン。