Robots.txt プロトコル標準の概要

Robots.txt プロトコル標準の概要

最近、多くのウェブマスターから「robots.txt」ファイルを正しく設定する方法について質問を受けています。ウェブマスターの友人たちの質問に答えるために、「Robots.txt プロトコル標準」を翻訳しました。この翻訳によって、皆さんが「robots.txt」ファイルについてより深く理解できるようになることを願っています。

Robots.txt は、サイトのルート ディレクトリに保存されるプレーン テキスト ファイルです。設定はシンプルですが、効果は強力です。検索エンジン スパイダーが指定されたコンテンツのみをクロールするように指定したり、検索エンジン スパイダーが Web サイトのコンテンツの一部またはすべてをクロールすることを禁止したりできます。

ここではその使い方を詳しく紹介します。

Robots.txt ファイルは、Web サイトのルート ディレクトリに配置し、インターネットからアクセスできるようにする必要があります。

例えば:

ウェブサイトのアドレスがhttp://www.yourdomain.com/の場合

次に、ファイルを http://www.yourdomain.com/robots.txt 経由で開き、その内容を確認できる必要があります。

形式:

ユーザーエージェント:

検索エンジン スパイダーの名前を記述するために使用されます。「Robots.txt」ファイルに複数の User-agent レコードがある場合、複数の検索エンジン スパイダーがこのプロトコルによって制限されることを意味します。このファイルには、少なくとも 1 つの User-agent レコードが必要です。この項目の値が * に設定されている場合、プロトコルはすべての検索エンジン スパイダーに対して有効です。「Robots.txt」ファイルには、「User-agent:*」などのレコードが 1 つだけ存在できます。

許可しない:

アクセスされたくない URL を記述するために使用されます。この URL は完全なパスでも部分的なパスでもかまいません。Disallow で始まる URL は、Robot によってアクセスされません。

例:

例 1: 「Disallow:/help」

つまり、検索エンジンのスパイダーは /help.html と /help/index.html をクロールできません。

例 2: 「Disallow:/help/」

つまり、検索エンジンのスパイダーは /help.html をクロールできますが、/help/index.html はクロールできません。

例3: レコードが空の場合の禁止

これは、Web サイトのすべてのページが検索エンジンによるクロールを許可されており、「/robots.txt」ファイルに少なくとも 1 つの Disallow レコードが存在する必要があることを意味します。

「/robots.txt」が空のファイルの場合、Web サイトはすべての検索エンジン スパイダーによるクローラーに公開されます。

#:
Robots.txt プロトコルのコメント記号。

例:

例 1: 「/robots.txt」を使用して、すべての検索エンジン スパイダーが「/bin/cgi/」ディレクトリ、「/tmp/」ディレクトリ、および /foo.html ファイルをクロールすることを禁止します。設定方法は次のとおりです。

引用内容は以下のとおりです。
ユーザーエージェント: *
許可しない: /bin/cgi/
許可しない: /tmp/
許可しない: /foo.html

例 2: 「/robots.txt」を使用して、1 つの検索エンジンのみのクロールを許可し、他の検索エンジンのクロールを禁止します。

たとえば、「slurp」という名前の検索エンジンスパイダーのみクロールを許可し、他の検索エンジンスパイダーが「/cgi/」ディレクトリ以下のコンテンツをクロールすることを拒否する場合の設定方法は次のとおりです。

引用内容は以下のとおりです。

ユーザーエージェント: *
禁止: /cgi/

ユーザーエージェント: slurp
許可しない:

元のタイトル: Robots.txt プロトコル標準の概要

キーワード:

<<:  ブログの内部リンクを改善する10の方法

>>:  ウェブサイト再構築後にトラフィックが減少した場合の対処方法

推薦する

XPRIZE創設者ピーター・ディアマンディスがデジタル変革のリーディングカンファレンスLiveWorxで基調講演

PTC (NASDAQ: PTC) は、ピーター・ディアマンディス医学博士が、6 月 11 日火曜日...

Weiboプロモーション!プロモーション方法について知っておくべきこと

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス微博!誰もがよく知ってい...

globalfrag-プロフェッショナルなDDoS防御ホスト/仮想ホスト/VPS/サーバー

globalfrag.com は 2008 年に設立され、主に仮想ホスティング、VPS、サーバー レ...

大手企業がライブストリーミングを狙う:トラフィック獲得のためのゲーム!

ライブストリーミングは、結局のところトラフィックのゲームです。交通費補助金がなければ、羅永浩の2回目...

ウェブサイトの重量を増やすにはどうすればいいですか?

ウェブサイトの重みが高ければ高いほど、検索エンジンへの重みが増し、サイト全体のトラフィックが増加し、...

fapvps-kvm vps+ssd/30% オフ 超格安

fapvps ドメイン名は 2010 年 8 月に登録されました。その特徴は価格の安さです。彼らの ...

#高防御サーバー# sharktech-80%割引コード/2 x E5-2670/32gメモリ/2x2Tハードディスク

Sharktech(Shark Data Center)の最新高防御サーバーが20%オフで販売中です...

海外でのアプリプロモーション中に急速なトラフィック増加を実現するにはどうすればよいでしょうか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています現在、イン...

石玉珠は3時間で213万を売り上げ、優美ドットコムは15%を請求し法律違反の疑い

石玉珠のオークションは3時間で2130万9150元で落札され、優美網は「プラットフォーム運営費」とし...

新しいウェブサイトを立ち上げ、2日間で30,000の利益を上げました。高コンバージョンのウェブサイト構築について共有

電話 1 本、注文 1 件、Web サイト 1 つ、チーム 1 つ、Web サイト構築に 1 か月と...

中国にIMDbがない理由:標準化された情報の必要性とUGCの難しさ

中国にIMDbがない理由:標準化された情報ニーズとUGCの難しさIMDb(インターネット映画データベ...

2019年次世代クラウドコンピューティング技術フォーラムが開幕、4つのハイライトが事前に公開

[51CTO.comからのオリジナル記事] 人工知能、ビッグデータ、エッジコンピューティングなどの新...

素晴らしい会話ができました!微博が「ダークホース」を見たとき

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますこれはハイ...

ローカル Web サイト - コミュニティとポータルに関する考察

著者が作成した小さな郡のポータルは、最終的には大失敗に終わりましたが、実際の運用とプロモーションの経...