スパイダーシステムの目標は、インターネット上のすべての貴重なウェブページを発見してクロールすることです。Baiduの関係者は、スパイダーはできるだけ多くの貴重なリソースをクロールし、システム内のページと実際の環境の一貫性を維持しながら、ウェブサイトのエクスペリエンスに負担をかけないようにすることも明らかにしています。つまり、スパイダーはすべてのウェブサイトのすべてのページをクロールするわけではありません。このため、スパイダーには、クロール効率を向上させるために、リソースリンクをできるだけ迅速かつ完全に発見するための多くのクロール戦略があります。この方法によってのみ、スパイダーはほとんどのウェブサイトを可能な限り満足させることができます。これが、ウェブサイトのリンク構造をうまく処理する必要がある理由です。次に、Mumu SEO は、ページめくりのウェブページをキャプチャするスパイダーのメカニズムについていくつかの意見を述べます。 (この記事では他のクローリングメカニズムは考慮せず、1つのポイントのみを分析します) このクロールメカニズムはなぜ必要なのでしょうか? 現在、ほとんどの Web サイトでは、ページングを使用して Web サイトのリソースを整然と配布しています。新しい記事が追加されると、古いリソースはページング シリーズの最後尾に移動されます。スパイダーにとって、この特定の種類のインデックス ページはクロールに有効なチャネルですが、スパイダーのクロール頻度は Web サイトの記事の更新頻度と同じではありません。記事のリンクはページング バーに押し込まれる可能性があります。このように、スパイダーが毎日 1 番目のページング バーから 80 番目のページング バーまでクロールし、一度に 1 つの記事をクロールしてデータベースと比較することは不可能です。これはスパイダーの時間を無駄にし、Web サイトのインクルード時間も無駄にします。したがって、スパイダーは、この特別な種類のページング Web ページに対して追加のクロール メカニズムを必要とし、含まれるリソースの完全性を確保します。 順序付けられたページめくりページであるかどうかを判断するにはどうすればよいでしょうか? 記事が公開時間順に並べられているかどうかを判断することは、このタイプのページに必要な条件であり、これについては後で説明します。では、リソースがリリース時間順に並んでいるかどうかは、どうやって判断するのでしょうか。一部のページでは、各記事リンクの後に、対応するリリース時間が続いています。記事リンクに対応する時間セットを通じて、時間セットが大きいものから小さいものへ、または小さいものから大きいものへ並べられているかどうかを判断できます。そうであれば、Web ページ上のリソースはリリース時間順に並んでおり、その逆も同様です。公開時間が書かれていなくても、スパイダーは記事自体の実際の公開時間に基づいて判断を下すことができます。 この掴み機構はどのように機能するのでしょうか? このタイプのページング ページの場合、スパイダーは主に、Web ページをクロールするたびに見つかった記事リンクを記録し、今回見つかった記事リンクを履歴で見つかったリンクと比較します。交差がある場合は、このクロールですべての新しい記事が見つかったことを意味し、後続のページング バーのクロールを停止できます。交差がない場合は、このクロールですべての新しい記事が見つからなかったことを意味し、すべての新しい記事を見つけるには、次のページまたは次の数ページをクロールし続ける必要があります。 少しわかりにくいかもしれません。非常に簡単な例を挙げてみましょう。たとえば、ウェブサイトのページング ディレクトリに 29 件の新しい記事が追加されました。これは、前回の最新記事が 30 番目だったことを意味し、スパイダーは一度に 10 件の記事リンクをクロールします。このように、スパイダーは最初に 10 件の記事をクロールしますが、これは前回との交差がありません。クロールを続行し、2 回目にさらに 10 件の記事をクロールします。合計 20 件の記事になります。前回との交差はまだありませんが、クロールを続行し、今回は前回との交差がある 30 番目の記事を取得します。これは、スパイダーが前回のクロールからこのウェブサイトの更新まで、29 件の記事すべてをクロールしたことを示しています。 提案 現在、Baidu Spiderは、Webページの種類、Webページ内のページめくりバーの位置、ページめくりバーに対応するリンク、リストが時間順に並んでいるかどうかなどについて、対応する判断を行い、実際の状況に応じて処理します。ただし、スパイダーは結局のところ100%の認識精度を達成することはできません。そのため、Webマスターがページめくりバーを作成するときにJSを使用せず、ましてやFALSHを使用せず、スパイダーのクローリングに協力するために記事を頻繁に更新すると、スパイダーの認識精度が大幅に向上し、それによってスパイダーのWebサイトにおけるクローリング効率が向上します。 もう一度、この記事はクモの這うメカニズムの 1 つについてのみ説明しており、クモがこの 1 つの這うメカニズムしか持っていないということを表しているわけではないことを思い出してください。実際の状況では、多くのメカニズムが同時に実行されます。著者: Mumu SEO http://blog.sina.com.cn/mumuhouzi 元のタイトル: ページめくり Web 検索エンジンはどのようにクロールするのか? キーワード: |
<<: P2Pオンライン融資は「連鎖危機」に陥っており、投資家は権利をどのように守るべきか困惑している。
[[211106]]クラウド コンピューティングは、今日でも企業がビジネスを行うための最大のチャンス...
序文:今日フォーラムにログインするとすぐに、Lu Songsong の「北京の SEO 従事者、基本...
5月22日夜、ピンドゥオドゥオは第1四半期の財務報告を発表した。その日の株価は14.5%急騰し、時価...
9月11日、第6回CSSインターネットセキュリティリーダーシップサミット-業界特別セッションがオン...
ドイツのビジネスソフトウェア大手SAPは4月13日、第1四半期の財務報告書を発表し、新たなエンタープ...
私は仕事柄、国内のプライベートクラウド市場の発展を注視しており、その市場に参加する栄誉に恵まれてきま...
SEO 最適化とプロモーションの大まかな方向性は、コンテンツと外部リンクの組み合わせに過ぎないことは...
AWS IoT Core は、接続されたデバイスがクラウドアプリケーションや他のデバイスと簡単かつ安...
概要: この記事では、より難しいレスポンシブ Web デザイン、つまりレスポンシブ ナビゲーション ...
ウェブマスターは退屈して、racknerd の過去のプロモーションを調べていたところ、rackner...
4月25日、神州ホールディングス、神州情報、神州デジタルグループが共催するデジタルクラウドパワーカン...
シュガーホストは香港データセンターのVPSの構成をアップグレードすると発表しましたが、価格は変更あり...
letbox は新しいビジネスではありませんが、まだ設立されて間もないです。ドメイン名から全体的な印...
オンラインマーケティングに従事する人々にとって、オンラインウォーターアーミーは馴染み深い存在です。い...
女性の消費に関しては、少し誇張した言い方をすれば、世界の消費決定の 80% は女性によって行われてい...