ウェブサイトのログからBaidu Spiderの認識を理解する

ウェブサイトのログからBaidu Spiderの認識を理解する

皆さんは百度スパイダーをよくご存知だと思いますし、ウェブマスターの皆さんもスパイダーの訪問を歓迎していますが、百度スパイダーの目的を本当に理解しているかどうかは、皆さんが非常に関心を持っているテーマです。今、編集者は過去のウェブサイト運営の日々の観察に基づいて、皆さんと共有したいと思います。間違いがあれば、ご訂正ください。

1. 時間ごとのクロール。このタイプのクロールは、新しいサイトまたは降格しようとしているサイトを対象としています。つまり、Baidu スパイダーは 1 日 24 時間、1 時間ごとに Web サイトのホームページをクロールし、クロールの回数は基本的に同じです。これは新しいサイトで最も一般的であり、新しいサイトにのみ表示されます。Baidu は間違いなくこの種のサイトを組み込まず、スナップショットは更新されません。これは、Baidu によるウェブサイトの検査です。このタイプのクローリングは、Baidu がウェブサイトのホームページの内容、ウェブサイトが更新されたかどうか、更新の強度、コンテンツが充実しているかどうかなどを分析します。ちなみに、ホームページの一部のデータもクロールして比較分析し、記事の URL パスを持ち帰ってスパイダーの次のクローリングターゲットを整理します。もう1つは、Baiduがあなたのサイトが正常であると判断した場合、またはサーバーが不安定である、Webページが頻繁に開けない、Webページに違法な問題があるなどのサイトに問題がある場合、同様のクロール方法が表示されます。 この場合は注意が必要です。 このようなクロール方法が表示された場合、あなたのサイトはダウングレードされる可能性が高くなります。これは、翌日のホームページのスナップショットの日付が更新されなかったり、前の日付にロールバックしたり、インクルードが停止したり、深刻な場合には、インクルードされた Web ページの一部が削除されるという形で現れます。次に、ウェブマスターとして、Web サイトをチェックして問題がどこにあるかを確認し、問題が深刻にならず 2 ~ 3 日以内に復旧できるように、時間内に修正する必要があります。

2. 含まれているクロールを確認します。これは、Google スパイダー クローラーに少し似ています。各クローラーは明確な役割分担があり、秩序正しく役割を果たします。このクロール方法がウェブサイトのログに表示された場合は、おめでとうございます。ウェブサイトはレビュー期間を過ぎており、Baidu に正式にウェブページが組み込まれています。確定された包含クロールとは、新しいコンテンツがウェブサイトに表示された後、Baidu スパイダーが最初のクロール後にそのコンテンツをリリースしないことを言います。この時点で、Baidu にはまだ判断できない要素が多数あります。Baidu スパイダーが比較計算を行う必要があると判断した場合、Baidu スパイダーは 2 回目のクロールを実行して、クロールされたコンテンツとインデックス ライブラリのコンテンツを比較して計算し、記事のコンテンツが新しいかどうか、インデックス ライブラリで繰り返し使用されているかどうかを確認する必要があります。記事のコンテンツを含める必要があると判断した場合、Baidu スパイダーは 3 回目のクロールを実行し、クロール後すぐに含められたページをリリースします。ウェブサイトの重みが高い場合、Baiduはこのような動作を繰り返さない。つまり、一度直接リリースしてからランキング計算を行い、最後に計算結果に応じて、インデックスライブラリ内の繰り返しの多い記事を徐々に削除します。そのため、一部のウェブサイトは初日に含まれていても2日目には消え、一部のウェブサイトは初日にランキング1位になっても翌日には消えてしまいます。これが理由です。

3. バーストまたは断続的なクロール。Baidu スパイダーが 1 ~ 2 分間に何百回もクロールできることが、Web サイトのログでよく見られます。 Baiduスパイダーの高効率クロールは、この期間中のウェブサイトの更新効率が非常に高いことを示し、Baiduスパイダーがウェブサイトの更新ルールを把握していることを意味します。この時間に記事を更新すると、数秒で収集できます。ただし、これはウェブサイトの重みが高く、すばやく取り込まれることを意味するものではありません。ウェブサイトの更新された記事がBaiduクローラースパイダーに偶然遭遇したとしか言えません。更新された記事が 1 時間または数時間も含まれないことがあります。これは、Web サイトが時間どおりに更新されておらず、スパイダーが去るとすぐに更新されることを意味します。したがって、新しい Web マスターは、ログに常に注意を払い、Baidu スパイダーの訪問ルールを把握して、それらを活用して成功を収める必要があります。

4. キャプティブクローリングは、ウェブサイト自体が育てたスパイダークローラーに相当し、ウェブサイト内を常にクローリングします。更新された記事があれば、すぐに転送およびインデックスライブラリにクローリングされ、最初にリリースされ、高い重みが与えられます。組み込まれた後、検索キーワードは基本的に最初のページにあり、その後データを比較します。インデックスライブラリと重複した場合は、翌日にインデックスライブラリから削除されます。記事がスパムすぎる場合や、Green Radish Algorithmの範囲内にある場合は、直接格下げまたは削除されます。数秒で収集できるこの種の Web サイトは重みが高く、スパイダー クローラーはほぼ常にこれを提供します。

上記は、日用品を長期にわたって分析して得た私の個人的な経験です。皆さんと共有したいと思います。間違いがあれば、ご指摘ください。ウェブサイト運営ログは、ウェブマスター、特に新人ウェブマスターにとって最も強力なツールです。ログを毎日読む習慣を身につけてください。最後に、すべての新人ウェブマスターができるだけ早く百度の試用期間から抜け出すことを願っています。

転載の際はこの記事へのリンクを残してください:


元のタイトル: ウェブサイトのログから Baidu Spider の認識を理解する

キーワード: スルー、ウェブサイトの日、百度、スパイダー、認識、信じる、みんな、ウェブマスター、ウェブサイトの宣伝、お金を稼ぐ

<<:  Googleがひっそりとネットワークアクセスサービスをテスト、従来の通信事業者に挑戦へ

>>:  ウェブサイト内の内部リンク: 内部キーワードの競合を避ける

推薦する

supportby: ベラルーシのホスティングプロバイダー。安価なベラルーシのVPS +専用サーバーを提供

support.by は 2004 年に設立され、15 年以上の歴史を持つベラルーシのホスティング会...

王欣、張一鳴、羅永浩がリリースする3つのソーシャルプロダクトを公開。「トイレ」はリリース前にWeChatで禁止された

張小龍の「WeChat Night」スピーチが話題になってから100時間も経たないうちに、3人の大物...

神聖な歌「江南スタイル」にインスピレーションを受けたインターネットマーケティング

韓国のおじさんPSYがプロデュースした「江南スタイル」のMVは世界中で人気を博しています。なぜこれほ...

ユーザー モード プロセスは、仮想アドレスに対応する物理アドレスをどのように取得するのでしょうか?

[[345236]]一般的に、ユーザー プロセスは物理アドレスをまったく気にしないため、プロセス仮想...

2019 年にクラウド IT インフラストラクチャの需要が変動し続ける理由

調査によると、エンタープライズ ハイブリッド クラウド環境に導入されるサーバー、ディスク ストレージ...

新しいサイトが立ち上げられ、Baiduは頻繁に更新した。

SEO技術の普及と検索エンジンの発展により、SEO業界の大物たちは2012年初頭から、検索エンジンか...

重要な機能! Borei Data APMは、企業がクラウドネイティブアーキテクチャの進化に冷静に対応できるよう支援します。

最近、Bonree Data のアプリケーション パフォーマンス モニタリング製品である Bonre...

tmhhost: 元旦割引、全 VPS 20% オフ、日本ソフトバンク 200M、米国 3 ネットワーク cn2 gia、米国 3 ネットワーク cn2 gia 高防御 200G

tmhhost は Yungu システムから新しいプラットフォームに移行しましたが、ちょうど元旦と重...

スパムマーケターへの新年のアドバイス:他人と自分に利益をもたらすことでのみ長期的な成功を達成できる

新年を迎えて、私のブログが大量のジャンクマーケティング情報で始まるとは夢にも思いませんでした。わずか...

Serverhub: カナダ/ポーランド、1Gbps 専用、2*e5-2650v2/48g メモリ/4T ハードディスク/IPMI

米国の老舗サーバーベンダーである Serverhub は現在、カナダとポーランドの 2 つのデータセ...

分散型のTCCモードは好きではない

[[384133]]この記事はWeChatの公開アカウント「プログラマーjinjunzhu」から転載...

詳細な分析: 典型的なトランザクション処理の問題と分散システムのモデル

[[282654]]すべての企業はデータ サービスの高可用性を望んでいますが、データの高可用性を実現...

App Store 中国がアルゴリズムを調整?一部のアプリではフルネームによる検索が機能しません

文/Sohu IT 何鋒本日、Apple App Storeの中国地域で「奇妙な現象」が発生しました...

企業のマーケティング部門はなぜ新製品の宣伝を継続しなければならないのでしょうか?

伝統的なマーケティングには、製品、価格、プロモーション、場所の 4 つの P があります。これらの ...

abelohost-$6.95/KVM/1g メモリ/60g ハードディスク/100M 無制限/Windows

abelohost は、openvz と kvm 仮想化に基づく 2 種類の VPS を提供していま...