検索エンジンの仕組み
検索エンジンは基本的に、ユーザーが探している特定の情報を見つけるのに役立つコンピューターアルゴリズムです。 効果的な検索エンジンがなければ、文字通り何兆ページもの情報がオンラインであるため、インターネット上で何かを見つけることはほとんど不可能です。 さまざまな検索エンジンはさまざまな特定の方法で機能しますが、それらはすべて同じ基本原則を利用します。
機能するために検索エンジンが最初にしなければならないことは、基本的にはインターネットのローカルデータベースを作成することです。 初期の検索エンジンは単にキーワードとページのタイトルをインデックス付けしましたが、現代の検索エンジンはすべてのページのすべてのテキストと、そのページと他のページとの関係に関する大量のデータ、場合によってはすべてまたは一部をインデックス化しますページで利用可能なメディアも。 検索エンジンは、検索クエリが送信されるたびにインターネット上を走り回るのではなく、効率的に検索を実行できるように、このすべての情報にインデックスを付ける必要があります。
検索エンジンは、インターネットの定期的なクロールを実行してこれらのデータベースを作成します。 初期の検索エンジンでは、クロールするためにページを送信する必要がしばしばありましたが、現在ではほとんどのページが他のページからのリンクをたどって見つかります。 ロボットまたはスパイダーと呼ばれるもの、ページのインデックス作成、ページからページへのフリット、ページ上のすべてのデータの記録、新しいページへのすべてのリンクの追跡のために構築されたコンピュータープログラム。 さまざまな検索エンジンは、常にクロールするクモの数とクロールの速度に応じて、さまざまな間隔でインデックスを更新します。一部のクローラは毎日1〜2回インターネットを処理し、他のクローラは毎週定期的に更新するか、月。
クモがこれらのページを通過すると、ページ上で見つけた単語を記録します。 各単語の表示回数、サイズ、場所、HTMLマークアップなどに基づいて特定の方法で単語に重みを付けるかどうかをメモし、ページに送られるリンクに基づいて単語の関連性を決定します。ページの一般的なコンテキストで。
検索エンジンは、各ページの値、および表示される単語の各ページの値に重み付けする必要があります。 これは、検索エンジンが実行する必要がある最も難しい部分ですが、最も重要です。 最も単純なレベルでは、検索エンジンはページ上のすべての単語を追跡し、そのキーワードでの検索に関連するページを記録できます。 ただし、検索クエリに最も関連性の高いページが望ましいので、これはほとんどのユーザーにとってあまり役に立ちません。 そのため、検索エンジンごとに重要度の重み付け方法が異なります。
さまざまな検索エンジンが使用するアルゴリズムは十分に保護されており、人々がより良いランクを獲得するためにページを作成することを防ぐため、または少なくとも彼らができる程度を制限するためです。 この違いは、異なる検索エンジンが同じ用語に対して異なる結果をもたらす理由です。 Googleは、1つのページが検索用語に対して最良の結果であると判断し、Askは同じページが上位50にないことを判断する場合があります。これは、インバウンドリンクとアウトバウンドリンクの評価方法、キーワードの密度に基づいています重要な点、単語のさまざまな配置を評価する方法、および任意の数の小さな要因を見つけます。
検索エンジンの最新の傾向、およびおそらく一般的な検索の将来は、キーワードベースの検索から概念ベースの検索に移行することです。 この新しい形式の検索では、検索者が入力したキーワードに検索を制限するのではなく、検索エンジンはそれらのキーワードの意味を理解しようとするため、正確な単語を含まないページを提案できますが、検索。 これはまだ発展途上の分野ですが、これまでのところ、検索をより関連性の高いものにする可能性が多くあり、ウェブを探しているものを正確に見つけるためのより簡単な場所にしています。