検索エンジンの基本アルゴリズムは、返される結果をどのように決定しますか? アルゴリズム分析

検索エンジンの基本アルゴリズムは、返される結果をどのように決定しますか? アルゴリズム分析

検索エンジンは、入力されたクエリに最も一致するページを返そうとするのでしょうか? このことを理解すれば、Google やその他の検索エンジンが複雑なアルゴリズムを使用して、返す結果を決定する理由が理解できるでしょう。 このアルゴリズムの要素には、ページに対する反応の数、いいね! や +1 機能によるソーシャル レコメンデーションなどの「ハード ファクター」があります。これらは通常、外部からの影響とページ自体の要因であり、オンライン要因とオフライン要因を分析することによってのみ、Google は問題のクエリの背後にあるページを特定でき、そのためにページ上のテキストを分析する必要があります。

1. 真か偽か

近年、検索エンジンは急速に発展しましたが、まだブールアルゴリズムしか処理できません。簡単に言えば、long は、真か偽か、つまり 1 か 0 を含むドキュメントです。さらに、演算子 AND、OR、NOT を使用して、複数の条件または除外を含むファイルを検索することもできます。これはかなり単純に聞こえますが、いくつか問題があります。

現在、次のテキストを含む 2 つのドキュメントがあるとします: ドキュメント 1: 「そして、ニューヨークにある私たちのレストランでは、クロケットとビターバレンを提供しています」; ドキュメント 2: 「オランダでは、クロケットとフリカンデレンを壁から取り出します」

検索エンジンを構築したい場合、最初のステップはテキストをトークン化することです。特定の用語がどのドキュメントに含まれているかを素早く識別できるようにしたいのですが、トークンをデータベースに保存すれば簡単に実現できます。トークンはデータベース内の任意の単一の用語を表します。では、Doc1 にはいくつのトークンが含まれているのでしょうか?

この質問に答えようと考え始めるとき、いくつかの「用語」を一つずつ考えてみるといいかもしれません。実際、Doc1 では「ニューヨーク」は特別な単一用語として考慮される必要があります。これら 2 つの単語が実際には 1 つの単語であると判断する方法はこの記事の範囲外であるため、現時点ではそれぞれを個別のトークンとして個別に脅威とします。したがって、Doc1 からは 10 個のトークンが、Doc2 からは 11 個のトークンが入っています。データベース内の情報の重複を避けるため、トークンではなくタイプを保存します。

タイプはテキスト上の個別のトークンです。 Doc1 には 2 つのトークン「and」が含まれています。大文字と小文字が区別される AND は 2 回としてカウントされることに注意してください。この例では、「and」と「&」を同じ型として保存できます。

すべての強力なドキュメントが略語に保存されているので、検索エンジンはそれらを見つけることができ、データベース内のブール値の助けを借りて検索することができます。 「croquets」を検索すると、Doc1 と Doc2 の両方から結果が返されますが、「croquets and bitterballen」を検索すると、Doc1 からの結果のみが返されます。この場合の問題点は、結果が多すぎたり少なすぎたりする可能性があることです。さらに、それは組織力の欠如の結果です。アプローチを改善したい場合は、ドキュメントのその他の存在/不在を使用し、ページ要素を使用して結果を整理できることを確認する必要があります。

2. インデックス付き

比較的単純なアプローチは、バンド インデックスを使用することです。バンド インデックスを使用すると、Web ページにさまざまな領域を追加できます。タイトル、説明、著者、コンテンツについて考えてみましょう。ドキュメントにコンテンツを追加することで、各ドキュメントの簡単なスコアを計算できます。これは、検索エンジンがページのトピックを判断するために使用するものです。

領域によって重みが異なり、これらの領域の品質によって、検索エンジンのインデックスの SERP における Web サイトのランキングが決まります。たとえば、タイトル(0.4)説明(0.1)コンテンツ(0.5)の場合、次の表に示す値でインデックス付けされたドキュメントがある場合、次の検索クエリ「croquets and bitterballen」を実行します。

エリアコンテンツブールスコア
タイトルニューヨークカフェ0 0
説明するクロッケーとビターバレンが美味しいカフェ1 0.1
コンテンツニューヨークのレストランではクロッケーとビターバレンを提供しています1 0.5

SEO 最適化のある時点で、ウェブマスターの友人が説明に割り当てられた重みを乱用し始めたため、Google の本文をさまざまな領域に分割し、各領域に異なる重みを割り当てることがより重要になりました。

インターネットにはさまざまな構造の文書が含まれているため、これをうまく実装するのは非常に困難ですが、XML 文書を使用するとはるかに簡単になります。XML の構造とタグは HTML ファイルよりもはるかに豊富なので、分析が容易になります。もちろん、現在および HTML5 では Google がマイクロフォーマットの一部をサポートする可能性がありますが、それでも制限はあります。たとえば、Google が <content> タグ内のコンテンツと <footer> タグ内のコンテンツに高い重みを割り当てることがわかっている場合は、<footer> タグを使用することはありません。

ページのステータスを判断するために、Google がページを複数のチャンクに分割することは許可されません。これにより、Google はページ上のどのデータ ブロックが重要で、どのブロックが重要でないかを知ることができます。使用できる方法は、テキストとコードの比率を比較することです。ページにさらにテキストが含まれている場合は、HTML コードのメイン コンテンツがページに配置されます。ページ ブロックに HTML コードやリンクが大量に含まれていて、コンテンツ (メニューなど) がほとんどない場合は、適切なエディターを選択することが非常に重要です。一部のエディターでは不要な HTML コードを大量に使用するためです。

テキスト/コード比率の使用は、検索エンジンがページをチャンクに分割するために使用できる方法の 1 つにすぎません。インデックス化されたアプローチの利点は、各ドキュメントのスコアを簡単に計算できることです。もちろん、欠点は、多くのファイルが同じスコアを取得する可能性があることです。

元の記事は、http://www.thebaiduseo.cn/news-19.html のウェブマスターによって最初に公開されました。転載する場合は、有効なリンク アドレスをそのままにしておいてください。ありがとうございます。

元のタイトル: 検索エンジンの基本アルゴリズムは、返される結果をどのように決定しますか? アルゴリズム分析

キーワード: 検索、エンジン、基本、アルゴリズム、決定方法、戻り、結果、計算、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  百度が360度に反撃:奇虎検索ユーザーにアクセスを促す

>>:  釣魚島防衛事件におけるポジショニングの観点からSEOの限界について簡単に議論する

推薦する

ギフト ウェブサイトは、ユーザーに最高の体験を提供するためにコンテンツをどのように最適化すればよいでしょうか?

ウェブサイトの最適化を行うすべてのウェブマスターは、モール型ウェブサイトを迅速に発展させたい場合、ウ...

新しいサイトの迅速な追加に関する中核的な操作についての簡単な説明

新しいウェブサイトを検索エンジンに素早くインデックスさせるにはどうすればよいでしょうか。これは、多く...

Elastic: ElasticsearchはElasticから1つだけあります

Elasticは、「Elasticsearch」という用語に関する商標侵害訴訟に関してAmazonと...

Tujia.com: 家事代行サービスの巨大ビジネス: 中国の HomeAway

この会社は中国の「ホームアウェイ」になることを目指しており、Ctrip を巧みに利用しています。成功...

レバレッジプロモーションをうまく活用する個人ウェブマスターも効果的にプロモーションできる

個人ウェブマスターの現在のプロモーションプロセスでは、多くのウェブマスターが依然として、効果の非常に...

ソフト記事を通じてウェブサイトのSEO最適化を実現するテクニックを分析する

ソフト記事には多くの機能があり、ウェブサイトの SEO 最適化を支援するのはその 1 つにすぎません...

ビッグデータ開発のために体系的な学習に参加する必要があるのはなぜですか?

ビッグデータ開発のための体系的な学習に参加する必要があるのはなぜですか?ビッグデータ産業の発展が政府...

Namecheap - 米国のドメイン名を 0.98 ドルで登録 (1 人あたり 5 件まで)

Namecheap の .me ドメイン名プロモーションは終了しましたが、今度は Namecheap...

オンプレミスからクラウドへの移行: クラウドネイティブ化における 4 つの主な課題

組織は、アプリケーションとデータをオンプレミスからクラウドに移行する際に直面する主な課題を理解する必...

クリスマスの SEO 戦争を理解する

お祭りの時期は、多くの企業にとって忙しい時期でもあります。クリスマスと新年の休暇マーケティングは、間...

より優れた指標、より優れたクラウドファースト戦略

クラウドファースト戦略のリスクとメリットは、大規模で複雑な IT 環境を持つ CIO にとって難しい...

プログラマーになりたいですか?あなたを孫悟空に変える 28 のオンライン学習ウェブサイト!

フルタイムのプログラマーになるために転職を検討している人、Web サイトを構築しようとしている人、ま...

2018 年のクラウド コンピューティングはどのようになるでしょうか?これらの6つのトレンドは不可欠である

現在、私たちは後で管理したり処理したりするためにデータを保存していますが、クラウド コンピューティン...

ヒーロー間の競争でネットワークランキングを向上させる方法

電話やテレビ販売などの積極的な販売手法が消費者に嫌われるようになり、販売手法が透明化して消費者に本質...