ウェブサイトのログからBaidu Spiderの認識を理解する

皆さんは百度スパイダーをよくご存知だと思いますし、ウェブマスターの皆さんもスパイダーの訪問を歓迎していますが、百度スパイダーの目的を本当に理解しているかどうかは、皆さんが非常に関心を持っているテーマです。今、編集者は過去のウェブサイト運営の日々の観察に基づいて、皆さんと共有したいと思います。間違いがあれば、ご訂正ください。

1. 時間ごとのクロール。このタイプのクロールは、新しいサイトまたは降格しようとしているサイトを対象としています。つまり、Baidu スパイダーは 1 日 24 時間、1 時間ごとに Web サイトのホームページをクロールし、クロールの回数は基本的に同じです。これは新しいサイトで最も一般的であり、新しいサイトにのみ表示されます。Baidu は間違いなくこの種のサイトを組み込まず、スナップショットは更新されません。これは、Baidu によるウェブサイトの検査です。このタイプのクローリングは、Baidu がウェブサイトのホームページの内容、ウェブサイトが更新されたかどうか、更新の強度、コンテンツが充実しているかどうかなどを分析します。ちなみに、ホームページの一部のデータもクロールして比較分析し、記事の URL パスを持ち帰ってスパイダーの次のクローリングターゲットを整理します。もう1つは、Baiduがあなたのサイトが正常であると判断した場合、またはサーバーが不安定である、Webページが頻繁に開けない、Webページに違法な問題があるなどのサイトに問題がある場合、同様のクロール方法が表示されます。この場合は注意が必要です。このようなクロール方法が表示された場合、あなたのサイトはダウングレードされる可能性が高くなります。これは、翌日のホームページのスナップショットの日付が更新されなかったり、前の日付にロールバックしたり、インクルードが停止したり、深刻な場合には、インクルードされた Web ページの一部が削除されるという形で現れます。次に、ウェブマスターとして、Web サイトをチェックして問題がどこにあるかを確認し、問題が深刻にならず 2 ～ 3 日以内に復旧できるように、時間内に修正する必要があります。

2. 含まれているクロールを確認します。これは、Google スパイダークローラーに少し似ています。各クローラーは明確な役割分担があり、秩序正しく役割を果たします。このクロール方法がウェブサイトのログに表示された場合は、おめでとうございます。ウェブサイトはレビュー期間を過ぎており、Baidu に正式にウェブページが組み込まれています。確定された包含クロールとは、新しいコンテンツがウェブサイトに表示された後、Baidu スパイダーが最初のクロール後にそのコンテンツをリリースしないことを言います。この時点で、Baidu にはまだ判断できない要素が多数あります。Baidu スパイダーが比較計算を行う必要があると判断した場合、Baidu スパイダーは 2 回目のクロールを実行して、クロールされたコンテンツとインデックスライブラリのコンテンツを比較して計算し、記事のコンテンツが新しいかどうか、インデックスライブラリで繰り返し使用されているかどうかを確認する必要があります。記事のコンテンツを含める必要があると判断した場合、Baidu スパイダーは 3 回目のクロールを実行し、クロール後すぐに含められたページをリリースします。ウェブサイトの重みが高い場合、Baiduはこのような動作を繰り返さない。つまり、一度直接リリースしてからランキング計算を行い、最後に計算結果に応じて、インデックスライブラリ内の繰り返しの多い記事を徐々に削除します。そのため、一部のウェブサイトは初日に含まれていても2日目には消え、一部のウェブサイトは初日にランキング1位になっても翌日には消えてしまいます。これが理由です。

3. バーストまたは断続的なクロール。Baidu スパイダーが 1 ～ 2 分間に何百回もクロールできることが、Web サイトのログでよく見られます。 Baiduスパイダーの高効率クロールは、この期間中のウェブサイトの更新効率が非常に高いことを示し、Baiduスパイダーがウェブサイトの更新ルールを把握していることを意味します。この時間に記事を更新すると、数秒で収集できます。ただし、これはウェブサイトの重みが高く、すばやく取り込まれることを意味するものではありません。ウェブサイトの更新された記事がBaiduクローラースパイダーに偶然遭遇したとしか言えません。更新された記事が 1 時間または数時間も含まれないことがあります。これは、Web サイトが時間どおりに更新されておらず、スパイダーが去るとすぐに更新されることを意味します。したがって、新しい Web マスターは、ログに常に注意を払い、Baidu スパイダーの訪問ルールを把握して、それらを活用して成功を収める必要があります。

4. キャプティブクローリングは、ウェブサイト自体が育てたスパイダークローラーに相当し、ウェブサイト内を常にクローリングします。更新された記事があれば、すぐに転送およびインデックスライブラリにクローリングされ、最初にリリースされ、高い重みが与えられます。組み込まれた後、検索キーワードは基本的に最初のページにあり、その後データを比較します。インデックスライブラリと重複した場合は、翌日にインデックスライブラリから削除されます。記事がスパムすぎる場合や、Green Radish Algorithmの範囲内にある場合は、直接格下げまたは削除されます。数秒で収集できるこの種の Web サイトは重みが高く、スパイダークローラーはほぼ常にこれを提供します。

上記は、日用品を長期にわたって分析して得た私の個人的な経験です。皆さんと共有したいと思います。間違いがあれば、ご指摘ください。ウェブサイト運営ログは、ウェブマスター、特に新人ウェブマスターにとって最も強力なツールです。ログを毎日読む習慣を身につけてください。最後に、すべての新人ウェブマスターができるだけ早く百度の試用期間から抜け出すことを願っています。

転載の際はこの記事へのリンクを残してください:

元のタイトル: ウェブサイトのログから Baidu Spider の認識を理解する

キーワード: スルー、ウェブサイトの日、百度、スパイダー、認識、信じる、みんな、ウェブマスター、ウェブサイトの宣伝、お金を稼ぐ

<<: Googleがひっそりとネットワークアクセスサービスをテスト、従来の通信事業者に挑戦へ

>>: ウェブサイト内の内部リンク: 内部キーワードの競合を避ける