Robots.txt ルールの誤解と Baidu および Google ロボット ツールの使用に関する分析

Robots.txt ルールの誤解と Baidu および Google ロボット ツールの使用に関する分析

以前、robots.txt ファイルの書き方について記事を書きましたが、実際に観察してみると、一部の友人はまだ robots.txt ファイルのルールについて誤解しているようです。

たとえば、多くの人が次のように書いています。

ユーザーエージェント: *
許可する: /
禁止: /mulu/

このルールが実際には効果がないということに気付いたかどうかはわかりません。最初の文 Allow: / はスパイダーがすべてのコンテンツをクロールすることを許可することを意味し、2 番目の文 Disallow: /mulu/ は /mulu/ の下にあるすべてのコンテンツを禁止することを意味します。

表面的には、このルールの目的は、スパイダーが /mulu/ を除く Web サイトのすべてのページをクロールできるようにすることです。

ただし、検索エンジンのスパイダーはルールを上から下に実行するため、2 番目のコマンドは無効になります。

正しいルールは次のようになります。

ユーザーエージェント: *
禁止: /mulu/
許可する: /

つまり、まず禁止コマンドを実行し、その後に許可コマンドを実行することで無効にならないようにします。

さらに、Baidu スパイダーが犯すもう 1 つの一般的な間違いは、Disallow コマンドと Allow コマンドがスラッシュ / で始まる必要があるため、次のように記述する人がいることです: Disallow: *.html これは Baidu スパイダーでは間違っており、次のように記述する必要があります: Disallow: /*.html 。

こうしたルールを記述するときに、気づかない問題が発生することがあります。Baidu Webmaster Tools (zhanzhang.baidu.com) と Google Webmaster Tools を使って、これらのルールをテストできるようになりました。

比較的言えば、Baidu Webmaster Tools のロボット ツールは比較的シンプルです。

Baidu Robots ツールは、各コマンド行が文法規則に準拠しているかどうかを検出することしかできず、実際の効果やクロール ロジック ルールは検出できません。

比較すると、図に示すように、Google の Robots ツールの方がはるかに使いやすいです。

Google ウェブマスター ツールではクローラ権限と呼ばれ、Google がサイトのページをクロールするときにブロックされる URL の数を報告します。

Robots の変更の効果をオンラインでテストすることもできます。もちろん、ここでの変更はテスト用です。問題がなければ、robots.txt ファイルを生成するか、コマンド コードを robots.txt テキスト ドキュメントにコピーして、Web サイトのルート ディレクトリにアップロードすることができます。

Google のテストは Baidu のテストとは大きく異なります。1 つ以上の URL を入力して、Google スパイダーがこれらの URL をクロールできるかどうかをテストできます。

テスト結果は、Google スパイダーによるこれらの URL のクロール状況です。このテストは、Robots ファイルのルールが特定の URL に対して有効かどうかを確認するためのものです。

もちろん、2 つのツールを組み合わせる方がよいでしょう。これで、ロボットの書き方を完全に理解できたはずです。

転載の際は、小夜ブログの記事であることを明記してください。この記事のアドレスは、http://liboseo.com/1170.html です。

特に指定がない限り、Xiaoyao Blog のすべての記事はオリジナルです。転載する場合は出典とリンクを明記してください。

元のタイトル: Robots.txt ルールの誤解と Baidu および Google ロボット ツールの使用に関する分析

キーワード: 分析、Robots.txt、誤解、Baidu、Googlerobo、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  1か月でウェブサイトのキーワードをランク​​付けする方法

>>:  SEOは最も基本的なマーケティング手法です

推薦する

ホスティングにメリットをもたらすハイブリッドクラウドを構築する4つの方法

組織がハイブリッド クラウドに統合できる管理インフラストラクチャを備えている場合、今日ではこれまで以...

#Cyber​​Monday# hostvenom: VPS+サーバー、50% オフ、Steadfast データセンター

Hostvenom のブラック フライデーとサイバー マンデーのプロモーションは 11 月 30 日...

ソーシャルマーケティングの話はやめましょう。口コミこそが王様です

インターネット以前の時代、人々が製品を購入するかどうかを決める際に一般的に参考にしていたのは 2 つ...

中小規模のサイトが開発に失敗する5つの理由を説明します

すべてのウェブサイトは、ウェブマスターの成功への期待とともに誕生します。しかし、成功するウェブサイト...

Wuyun.com CEO: 抵抗は主にBATビッグスリーから来る

Wuyun.com の創設者、Fang Xiaodun 氏写真は北京タイムズ記者の潘東風氏によるもの...

ウェブデザインに手​​描きスタイルを取り入れてユーザーエクスペリエンスを向上

[コアヒント] 手描き風のスタイルをウェブページに適用してウェブサイトのユーザーエクスペリエンスを向...

「Baiduホームページに追加」の方法と原理について話す

最近、百度が新たにアップグレードした機能「百度ホームページに追加」について、皆さんも聞いたことがある...

SaaS の価格設定を正しく行う方法

SaaS の次の段階である使用量ベースの価格設定は、CIO が企業の成長に重要な役割を果たすことが...

ウェブサイトの最適化が必要な企業ウェブサイトの構造設計方法

私は 7 年以上インターネット ウェブサイトの仕事に従事しており、ウェブサイトのプログラミング、アー...

CIO はパブリック クラウドへの移行により IT インフラストラクチャを活性化

TC EnergyのCIO、クリス・フォスター氏は、パブリッククラウドへの移行によりコストが削減され...

Netty を使用して高性能な分散サービス フレームワークを作成する方法は?

[[407305]] 1. Nettyとは何ですか?それは何ができるのでしょうか? Netty は、...

QQスペース運営:目立たないQQスペースはどうやって月に1万元以上を稼ぐのか?

QQ Spaceといえば、インターネット界隈では誰もがDongdongを知っているはずで、私が彼につ...

vpss「言葉にできない」時代-$16/1gメモリ/200gハードディスク/2Tトラフィック/Gポート/winXP/03/08

vpss「言葉にできない」時代は非常に新しいビジネスです。論理的には、私がそれを公開する必要はありま...

サイトの包含性を向上させるために3種類のページを合理的に使用する方法についての簡単な説明

サイト上のページの種類は、静的ページ、動的ページ、疑似静的ページの 3 種類に進化しました。最適化の...

2020年のトレンド予測: SaaSモデルが企業のデジタル化の第一選択肢に

2019 年が終わりに近づき、2020 年は新たな旅の始まりです。振り返ってみると、エンタープライズ...