以前、robots.txt ファイルの書き方について記事を書きましたが、実際に観察してみると、一部の友人はまだ robots.txt ファイルのルールについて誤解しているようです。 たとえば、多くの人が次のように書いています。
このルールが実際には効果がないということに気付いたかどうかはわかりません。最初の文 Allow: / はスパイダーがすべてのコンテンツをクロールすることを許可することを意味し、2 番目の文 Disallow: /mulu/ は /mulu/ の下にあるすべてのコンテンツを禁止することを意味します。 表面的には、このルールの目的は、スパイダーが /mulu/ を除く Web サイトのすべてのページをクロールできるようにすることです。 ただし、検索エンジンのスパイダーはルールを上から下に実行するため、2 番目のコマンドは無効になります。 正しいルールは次のようになります。
つまり、まず禁止コマンドを実行し、その後に許可コマンドを実行することで無効にならないようにします。 さらに、Baidu スパイダーが犯すもう 1 つの一般的な間違いは、Disallow コマンドと Allow コマンドがスラッシュ / で始まる必要があるため、次のように記述する人がいることです: Disallow: *.html これは Baidu スパイダーでは間違っており、次のように記述する必要があります: Disallow: /*.html 。 こうしたルールを記述するときに、気づかない問題が発生することがあります。Baidu Webmaster Tools (zhanzhang.baidu.com) と Google Webmaster Tools を使って、これらのルールをテストできるようになりました。 比較的言えば、Baidu Webmaster Tools のロボット ツールは比較的シンプルです。 Baidu Robots ツールは、各コマンド行が文法規則に準拠しているかどうかを検出することしかできず、実際の効果やクロール ロジック ルールは検出できません。 比較すると、図に示すように、Google の Robots ツールの方がはるかに使いやすいです。 Google ウェブマスター ツールではクローラ権限と呼ばれ、Google がサイトのページをクロールするときにブロックされる URL の数を報告します。 Robots の変更の効果をオンラインでテストすることもできます。もちろん、ここでの変更はテスト用です。問題がなければ、robots.txt ファイルを生成するか、コマンド コードを robots.txt テキスト ドキュメントにコピーして、Web サイトのルート ディレクトリにアップロードすることができます。 Google のテストは Baidu のテストとは大きく異なります。1 つ以上の URL を入力して、Google スパイダーがこれらの URL をクロールできるかどうかをテストできます。 テスト結果は、Google スパイダーによるこれらの URL のクロール状況です。このテストは、Robots ファイルのルールが特定の URL に対して有効かどうかを確認するためのものです。 もちろん、2 つのツールを組み合わせる方がよいでしょう。これで、ロボットの書き方を完全に理解できたはずです。 転載の際は、小夜ブログの記事であることを明記してください。この記事のアドレスは、http://liboseo.com/1170.html です。 特に指定がない限り、Xiaoyao Blog のすべての記事はオリジナルです。転載する場合は出典とリンクを明記してください。 元のタイトル: Robots.txt ルールの誤解と Baidu および Google ロボット ツールの使用に関する分析 キーワード: 分析、Robots.txt、誤解、Baidu、Googlerobo、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化 |
<<: 1か月でウェブサイトのキーワードをランク付けする方法
組織がハイブリッド クラウドに統合できる管理インフラストラクチャを備えている場合、今日ではこれまで以...
Hostvenom のブラック フライデーとサイバー マンデーのプロモーションは 11 月 30 日...
インターネット以前の時代、人々が製品を購入するかどうかを決める際に一般的に参考にしていたのは 2 つ...
すべてのウェブサイトは、ウェブマスターの成功への期待とともに誕生します。しかし、成功するウェブサイト...
Wuyun.com の創設者、Fang Xiaodun 氏写真は北京タイムズ記者の潘東風氏によるもの...
[コアヒント] 手描き風のスタイルをウェブページに適用してウェブサイトのユーザーエクスペリエンスを向...
最近、百度が新たにアップグレードした機能「百度ホームページに追加」について、皆さんも聞いたことがある...
SaaS の次の段階である使用量ベースの価格設定は、CIO が企業の成長に重要な役割を果たすことが...
私は 7 年以上インターネット ウェブサイトの仕事に従事しており、ウェブサイトのプログラミング、アー...
TC EnergyのCIO、クリス・フォスター氏は、パブリッククラウドへの移行によりコストが削減され...
[[407305]] 1. Nettyとは何ですか?それは何ができるのでしょうか? Netty は、...
QQ Spaceといえば、インターネット界隈では誰もがDongdongを知っているはずで、私が彼につ...
vpss「言葉にできない」時代は非常に新しいビジネスです。論理的には、私がそれを公開する必要はありま...
サイト上のページの種類は、静的ページ、動的ページ、疑似静的ページの 3 種類に進化しました。最適化の...
2019 年が終わりに近づき、2020 年は新たな旅の始まりです。振り返ってみると、エンタープライズ...