主流の検索エンジンの原則

主流の検索エンジンの原則

今日は検索エンジンの原理を紹介します。まずは写真を見てみましょう…

次に、階層ごとに説明します。

1. www: www はインターネット上のすべてのウェブページを指します。世界にはいくつのウェブサイトがあるでしょうか? 2006 年の統計によると、ウェブサイトの数は 8,065 万でした。ここ数年のインターネットの急速な発展により、今日では数億のウェブサイトがあるはずです。検索エンジンの役割は、これらのウェブサイトを収集し、ユーザーが検索できるようにランキングを割り当てることです。

2. コレクター: コレクターは一般にスパイダーとして知られています。スパイダーはインターネット上の Web サイトのクロールを担当します。スパイダーには 2 つのクロール方法があり、1 つは深さ優先、もう 1 つは幅優先です。私の Web サイトを例に挙げると、深さ優先とは、スパイダーが Web ページで最初に見つけたリンクから開始することを意味します (下の図を参照)。最初のリンクの下にあるすべてのリンクがクロールされるまで、2 番目のリンクのクロールは開始されません。幅優先とは、2 番目のページのクロールを開始する前に、最初のページのすべてのリンクがクロールされることを意味します。

3. コントローラー: スパイダーは Web ページをダウンロードし、コントローラーに渡します。コントローラは、重複排除などのこれらの Web ページに対する簡単な分析を実行する役割を担います。また、コントローラは、スパイダーのディスパッチ、スパイダーのクロール時間、クロール方法、クロール オブジェクトなどの調整も担当します。コントローラーはすべての URL を抽出し、キャプチャされた URL とクロールされていない URL の 2 つのタイプに分割します。すべての URL ページをクロールし、元のデータベースに保存します。

4. オリジナル データベース: スパイダーによってキャプチャされたランキングのない、最もオリジナルな Web ページを保存するために使用されます。

5. Web ページ分析モジュール: Web ページ分析モジュールは最も重要なモジュールと言えます。この部分は主に、重複、詐欺、違法などのウェブサイトなどのジャンクウェブページをフィルタリングすることです。特に、Baiduアルゴリズムの最近の主要な更新後、この領域のアルゴリズムが更新され、主に偽のオリジナルやジャンクの外部リンクの収集に対抗するとともに、いくつかの複雑なアルゴリズムを使用して各ウェブページと外部リンクの価値をスコアリングします。これを重みと呼びます。この重みにより、将来のソートの準備が整います。

6. インデクサー: インデクサーは、Web ページ分析モジュールによって配信された貴重な Web ページを、順方向インデックスと逆方向インデックスに分割します。ポジティブインデックスとは、各 Web ページを多数のキーワードに分割することを意味します。逆インデックスは、キーワードごとに多数の Web ページをリストし、並べ替えます。

7. インデクサー データベース: インデックス データベースは、インデクサーによってキーワード別にリストされた Web ページを保存するために使用されます。

8. 検索エンジン: ユーザーが入力した単語をセグメント化し、インデックス データベースから Web ページを取得して並べ替え、最終的に結果をユーザーに返します。

9. ユーザー: 名前の通り、インターネット ユーザーです。

10. ユーザーインターフェース: Baidu の検索結果ページとして理解できます。

11. ユーザー行動ログデータベース: ユーザー行動ログデータベースは、ユーザーがクリックしたウェブサイト、ユーザーがウェブサイトに滞在した時間、2 番目のウェブサイトをクリックする間隔、検索キーワードなど、ユーザーの行動を保存するために使用されます。

12. ログ アナライザー: 個人的には、この部分は非常に重要だと思います。検索エンジンはユーザー エクスペリエンスにますます注目しており、これが今後の検索エンジンの開発傾向です。この部分は、ユーザー行動ログ データベースでユーザー行動を詳細に分析し、インターネット上の多くの Web サイトでのユーザー行動の重みとランキングを加算または減算します。

この記事は鄭州seoに掲載されました http://www.8abd.com/?p=65 転載の際はリンクを明記してください。 よろしくお願いいたします

元のタイトル: いくつかの主流検索エンジンの原理

キーワード: 検索エンジンの原理、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  7月のBaidu検索エンジンの変更の観察と概要

>>:  ソーシャルショッピングガイド:過大評価され、期待されている

推薦する

20社以上のP2Pオンライン融資会社が倒産し、業界の慢性的な問題が警告を発し始めている。

10月以降、20以上のオンライン融資プラットフォームが資金調達チェーンに問題を抱えており、そのリスト...

この技術の解釈は、読むと理解できるようになります

あなたが女の子で、彼氏がいるとします。同時に、あなたは別の男の子と、友達以上恋人未満という曖昧な関係...

信頼性の高い IPXCORE - 256MB メモリ KVM/SSD キャッシュ/月額 3 ドル/ニューヨーク

ipxcore がついに KVM を正式にリリースしました。最初のデータセンターはニューヨーク州バッ...

クラウド サービスから業界クラウドまで、Trusted Cloud はどのようにしてクラウド コンピューティングの健全な標準を構築するのでしょうか?

1月25日、中国情報通信研究院は北京で第11回トラステッドクラウド記者会見を開催し、トラステッドクラ...

SEO担当者がプレッシャーをモチベーションに変える方法

SEO最適化担当者として、私たちは皆、一定のプレッシャーを抱えています。私たちは毎日一生懸命働いてお...

中国生鮮食品電子商取引業界レポート

2005年、中国初の生鮮食品電子商取引プラットフォーム「Yiguo.com」が設立され、生鮮食品電子...

ウェブサイトは定期的に最適化および更新されており、世界ランキングは着実に向上しています。

今年7月18日にウェブサイトの登録に成功しました。当時、ウェブサイトの世界ランキングは150万を超え...

一般的な対外貿易促進方法の一覧

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています対外貿易促...

仮想現実デバイスOculus:今、未来に衝撃を与える

約10年前、私はQidian Chineseのウェブサイトで初めてオンラインゲーム小説を見ました。こ...

13の省庁と委員会が共同で虚偽広告を取り締まり、医薬品が是正の焦点に

北京ニュース(記者 廖愛玲)インターネット閲覧中にウェブページに頻繁に表示される広告や、オンラインシ...

ビジネスでエッジコンピューティングを活用する10の方法

[[389821]]コンピューティング機能と分析機能をエッジに移行する企業が増えるにつれ、さまざまな...

Host1plus - 2019年4月のフルサイトプロモーションクーポンコード(仮想ホストとVPSを含む)

host1plus.com の 4 月の定期プロモーション クーポン コードが公開されました。VPS...

龍門飛月はウェブサイトのトラフィックを誘発する活動について簡単に語る

多くの場合、ウェブサイトにメンバーが集まった後、メンバーのアクティビティを向上させる方法について考え...

SEOプラットフォームは小さすぎるが、ビジョンは拡大すべきである

当時、この検索エンジンは中国の3大インターネット企業の中で最も重要な存在でした。その時価総額は一時テ...

A8 Musicはインターネット出版ライセンスを取得しており、インターネットオーディオおよびビデオ出版に従事することができます。

新浪科技報4月10日午後、A8ミュージックは本日、国家新聞出版広電総局(旧国家新聞出版総局)が発行す...