誰もが自分のプライバシーを持っていますが、それはウェブサイトでも同じです。また、メンバーのパスワードなど、スパイダーに見られたくないものがウェブサイト上にもあります。プライバシーのこの部分をブロックしたい場合、一般的にウェブマスターはまず Robots.txt を思いつきます。そうです、Robots.txt ファイルを使用すると、スパイダーに道を示し、どこに行くべきか、どこに行くべきでないかを伝えることができます。多くのウェブマスターが Robots.txt の使用に熱心であるのは、このためですが、Robots.txt の使い方を本当に知っていますか? その記述ルールについてどれだけ知っていますか? 私は才能はありませんが、この分野では多少の経験があります。ここで共有して、皆さんが参考にできるようにします。もちろん、年老いた鳥はそれを飛び越えることができます。 Robots.txt の書き込み順序の問題 例えば、自分のファイル a 内の b.html をクロールしたい場合、どのように記述すればよいでしょうか? Allow:/a/b.html Disallow:/a/ または Disallow:/a/ Allow:/a/b.html ですか? Robots.txt の記述ルールでは、ツリー分析構造は実行されません。つまり、記述時に親フォルダを最初に置くのではなく、近接原則に従う必要があります。親フォルダを前に置くと、スパイダーはこのパスが閉じていてアクセスできないと考えますが、最終的な目的はそれにアクセスすることです。このように、目標と現実は大きく異なります。 Robots.txt の書き込みに関する未解決の問題 多くのウェブマスター、特に初心者のウェブマスターは、Robots.txt についてあまりにも偏った理解を持っています。彼らは、Robots.txt はスパイダーのアクセス パスを規定できるのだから、それを公開してすべてのファイルにアクセスできるように設定すればいいと考えます。このようにすれば、含まれるウェブサイトの数はすぐに増えます。実際には、問題は私たちが考えるほど単純ではありません。ウェブサイト上の一部の固定ファイルは、アクセスのために検索エンジンに送信する必要がないことは誰もが知っています。ウェブサイトを「完全に公開」すると、ウェブサイト サーバーの負荷が増加し、アクセス速度が低下し、スパイダーのクロール速度が低下し、ウェブサイトのインクルードに役立たなくなります。したがって、アクセスする必要のない固定ファイルについては、単に許可しないようにすることができます。 一般的に、Web サイトがアクセスする必要のないファイルには、バックグラウンド管理ファイル、プログラム スクリプト、添付ファイル、データベース ファイルなどが含まれます。 Robots.txt に関する繰り返し発生する問題 私たちは毎日オリジナルコンテンツを書き、それを自分のウェブサイトに更新しています。これを行う目的について考えたことはありますか?もちろん、検索エンジンを満足させるためです。検索エンジンがオリジナルコンテンツを重視し、オリジナルコンテンツを非常に迅速にインデックスすることは誰もが知っています。逆に、あなたのウェブサイトがコピーされたコンテンツでいっぱいになっている場合、残念ながらあなたのウェブサイトの将来は暗いとしか言えません。しかし、これは別の観点から、重複するページコードを禁止し、ページの重複を減らすためにロボットファイルを積極的に使用する必要があることを示していますが、ロボットファイルを書くときは、次のことを覚えておく必要があります。 User-agent の後に、User-agent: BaiduSpider Disallow:/ などの検索エンジンを追加します。追加せずに User-agent: * Disallow: / の形式で記述すると、Web サイトのコンテンツがすべて「ブロック」されます。 Robots.txt メタ問題 Robots.txt の記述ルールには、最も強いパラメータを採用するというルールがあり、robots.txt ファイルとメタ タグがウェブサイトとページ タグに同時に出現する場合、検索エンジンは 2 つのルールのうちより厳しいルールに従います。つまり、検索エンジンが特定のページをインデックスすることを禁止します。もちろん、robots.txt ファイルとメタ タグが同じファイルに出現しない場合は、検索エンジンは近接原則に従い、メタ タグより前のすべてのファイルをインデックスします。 Robots.txt の書き込みの詳細 1. バックスラッシュの挿入 Disallow:/a/b.html を例に挙げてみましょう。この文を書くときにバックスラッシュを追加し忘れると、すべてのコンテンツが開かれてしまいます。バックスラッシュはルートディレクトリを意味するため、これは文を書くという考え方とは矛盾します。 2. 空間の外観 スペースの出現は簡単に理解できます。検索エンジンはこの特別な記号の出現を認識しないため、スペースを追加すると文章の効果が失われるだけです。 これで、robots.txt ファイルについて知っている人はいるが、それを正しく記述する方法を知っている人はほとんどいないと私が言った理由がお分かりになったと思います。実際、robots.txt ファイルには、他にも注意すべき詳細や問題があります。今後も、ディレクトリ サイズや robots.txt ファイルの記述に関係するユーザー エージェントの数などの問題について引き続きお話しします。 この記事は、モバイル壁紙ウェブサイト http://www.sjbzz.com から引用したものです。転載はご自由にどうぞ。ありがとうございます。 原題: robots.txt の記述は地雷原のようなもので、少しの不注意が深刻な被害を引き起こす可能性があります (パート 1) キーワード: Robots.txt、書き込み、地雷原、不注意、深刻な被害、全員、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、金儲け |
>>: SEOを成功させるにはトラフィックソースの多様化が必須
buyvm.net は、VPS を使っている人なら誰でも多かれ少なかれ知っているはずです。価格面での...
cmivps は、香港データセンター、KVM 仮想化、純粋な SSD、100Mbps 帯域幅、中国本...
リモート オフィスやブランチ オフィスのシナリオの増加、およびクラウド コンピューティングなどの新し...
過去2年間で、人工知能(AI)は研究・概念レベルから応用レベルへと徐々に移行し、ますます多くの企業が...
外部リンクを構築する最良の方法はアンカー テキスト リンクを使用することだということは、すべての W...
2017年ハルビンで高等教育情報化発展セミナー開催【中国ハルビン、2017年11月24日】11月、「...
ResearchAndMarkets が発表したエッジ コンピューティング分析レポートによると、世界...
今年はマイクロソフトが中国に進出して30周年にあたる。過去 30 年間、マイクロソフトは中国市場と顧...
世の中の物事は、長い統一期間を経て、やがて分離し、長い分離期間を経て、やがて統一される。巨大企業の間...
Subnet Labs LLC には、特別な VPS 価格を提供する impactvps というブラ...
「アカウントのメンテナンスは、自発的に行うものではなく、複数のプラットフォームで自分の社会的性格のさ...
クリプトデータセンターのクラウドサーバーブランド「ion」は現在、シンガポールデータセンターのシンガ...
ブランドイメージを確立し、ブランドの信頼を高める2012 年 3 月に調査部が実施した調査結果による...
はじめに: ウェブサイトの顧客を増やしたい場合は、ウェブサイトをシンプルに保ち、価値あるコンテンツを...
A5 Webmaster Network(www.admin5.com)は5月21日、ビデオアプリケ...