ロボットは検索スパイダーのクローリングとグラブを完全にブロックできますか?

ロボットは検索スパイダーのクローリングとグラブを完全にブロックできますか?

検索スパイダーのクロールをブロックする場合、当然 robots.txt ドキュメントが思い浮かびます。 robots.txt とは何でしょうか? 実は、Huizhou SEO Ye Jianhui がすでにこれについて基本的な説明をしています。 Robots.txt は、Web サイト スペースのルート ディレクトリに保存されるテキスト ファイルです。これは、Web サイトのどの部分をクロールできるか、どの部分をクロールできないかを検索スパイダーに伝えるために使用されるプロトコルです。しかし、Ye Jianhui はここで疑問を抱いています。robots.txt はスパイダーのクローリングとクロールを完全にブロックできますか?

Robots.txtはスパイダーのクローリングやクロールをブロックすることができます

最近、友人のXiangyang SEO Chameiが次のような問題に遭遇しました。「明らかにrobots.txtを使用してWordPressのディレクトリファイルをブロックしましたが、なぜスパイダーは毎日いつものようにクロールし続けるのですか?」その後、Ye Jianhuiは当然ウェブサイトのrobots.txtファイルを確認しました。以下はWordPressのディレクトリブロック設定です。

禁止: /wp-admin

禁止: /wp-content

禁止: /wp-includes

確認した後、彼は問題を発見しました。それはディレクトリファイルのブロッキングでした。しかし、ブロッキング設定の後に / が不足しているようでした。Ye Jianhui が相談したところ、彼の友人は「ディレクトリファイルの前に / を追加すれば十分です。最後に追加しても問題ありません。」と考えました。 Ye Jianhui 氏はこれについて別の意見を持っています。末尾に / を追加することと追加しないことは、スパイダーにとって 2 つの異なる概念です。追加すると、スパイダーにこれがフォルダーであると伝え、追加しないと、スパイダーにこれがファイルであると伝えます。その結果、robots.txt で設定を行っても、効果的にブロックすることはできません。もちろん、これはYe Jianhuiの個人的な意見にすぎません。

その後、友人はアドバイスに従って robots.txt を次のように変更しました。

禁止: /wp-admin/

禁止: /wp-content/

禁止: /wp-includes/

変更が成功した後、Baidu Webmaster Platform で再生成操作を送信します (生成を積極的に送信せず、スパイダーによる生成に頼る場合は、時間がかかることに注意してください)。その日のうちに有効になります。翌日、再度ログを確認すると、スパイダーが 3 つの WordPress ディレクトリをクロールしなくなっていたことがわかりました。

この観点から、ウェブサイトの SEO 最適化を行う際には、細部を無視することはできません。たった 1 つの / がさまざまな効果をもたらす可能性があります。

Robots.txtはスパイダーのクローリングを完全にブロックできない

この問題が解決した後、友人はファイルのブロックについて別の質問をしました。「ディレクトリをブロックしたのは明らかですが、なぜスパイダーは依然としてそのディレクトリ内の特定のファイルをクロールしてインデックス付けできるのでしょうか?」

さて、ここで Ye Jianhui が説明する必要があります。robots.txt プロトコルは標準でも仕様でもなく、単なる慣例です。通常、検索エンジンはこのファイルを認識しますが、特別なケースもあります。 (例えば、前回の360事件についてはこの記事では取り上げません)

Baidu でも Google でも、ページに他の Web サイトがリンクしている限り、そのページもインデックスされて含まれる可能性が高くなります。ページ ファイルが Google によってインデックスに登録されないように完全にブロックするには (他の Web サイトからリンクされている場合でも)、ページの先頭に noindex メタ タグまたは x-robots-tag を挿入する必要があります。次のように:

<meta name="googlebot" content="noindex">

Google のスパイダーがページ上の noindex メタタグを検出すると、他のページがリンクしているかどうかに関係なく、そのページを Google の検索結果から完全に削除します。

では、Baidu はどうでしょうか? Baidu に関しては、Google のように noindex を通じてインデックスから Web ページを完全に削除することはサポートされていません。Baidu が Web ページのスナップショットを表示することを禁止する noarchive メタ タグのみをサポートしています。具体的な内容は以下のとおりです。

<meta name="バイダスパイダー" content="noarchive">

上記のタグは、Baidu がページのスナップショットを表示することを禁止するだけですが、Baidu は引き続きそれをインデックスし、検索結果に Web ページの概要を表示します。

ご存知のとおり、Taobao は robots.txt を通じてサイト全体で Baidu スパイダーをブロックしていますが、Baidu で Taobao を検索すると、最初の結果も Taobao のホームページのアドレスになるのはなぜでしょうか。しかし、ページのスナップショットを表示すると、空白になっています。したがって、Web サイトは Baidu スナップショットの表示を禁止することしかできず、Baidu による Web ページのインデックス作成を禁止することはできないようです。

結論:

Ye Jianhui 氏が記事の最初の段落で言及した質問に戻りますが、robots.txt はスパイダーのクローリングとグラブを完全にブロックできますか? このような質問を見ると、肯定的に答える友人もいると思います。これは、私たち全員に発見能力が欠けていることを意味し、スパイダークローリングを効果的にブロックできないことは、最適化作業が十分に詳細ではないことを意味しているに過ぎません。

Ye Jianhui 氏は、robots.txt に関するこれら 2 つの小さな問題に基づいて、私たちが SEO の専門家になるのを妨げているのは、問題を発見する能力と正確に実行する能力であると考えています。

原文は恵州 SEO ブログ http://www.huizhouseo.cn/seo/823.html からのもので、Ye Jianhui 氏が寄稿したものです。

 


元のタイトル: ロボットは検索スパイダーのクローリングとクロールを完全にブロックできますか?

キーワード: ロボット、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  Baidu Index を利用してローカル マーケティング ウェブサイトの SEO を効率的に制御する

>>:  1か月15日間でBaiduの主要キーワードランキングプランを作成

推薦する

IBM: ハイブリッドクラウド + 人工知能、持続可能な未来の創造に向けて協力

IBM が今年発表した「IBM Enterprise Transformation Index: S...

「エッジコンピューティングは『ワイヤレス』で可能」レノボがThinkSystemエッジサーバーをリリース

本日、「エッジコンピューティングの『ワイヤレス』の可能性」をテーマにしたLenovo ThinkSy...

フォーラムコミュニティを宣伝する際には、以下の重要なポイントに注意する必要があります。

皆さんも聞いたことがあると思います。フォーラムコミュニティはBBSとも呼ばれています。現在、主要なポ...

個々のウェブマスターはどのようにして高品質の外部リンクを作成できるのでしょうか?

昨日、私のウェブサイトが低品質の外部リンクに見舞われたため、主な原因はウェブサイトの外部リンクにある...

ウェブサイトのユーザーエクスペリエンスを向上させ、より多くのユーザーにウェブサイトを気に入ってもらいましょう

現代社会では、どんな業種であっても「サービス」が大切です。良い商品だけでなく、良いサービスがあってこ...

薛曼子:昔はただ楽しみたかっただけなのに、今は妻や子供達と顔を合わせるのに恥ずかしい。

新華網、北京、4月16日(記者 白楊)「これは私の人生で最大の挫折であり、忘れられない教訓です。家族...

音楽ウェブサイトの有料化計画は著作権管理局から明確な支持を受けるが、オンライン視聴は引き続き無料

音楽ダウンロードの「無料ランチ」の終焉に関する最近の議論に関して、記者は昨日、テンセントのQQミュー...

企業がすべてを SEO に頼るのは信頼できることでしょうか?

SEO 業界は 2005 年に誕生しました。誕生以来、ますます多くの人々がこの職に就くようになりまし...

調査結果:クラウド顧客の半数がマルチクラウドアーキテクチャを構築中

最近の調査によると、ますます多くの大企業が OpenStack への投資を徐々に増やしています。実際...

習得すべきウェブサイト最適化の4つの詳細

ウェブサイトの最適化には多くの詳細事項が関係していることは誰もが知っています。これらの細かい詳細は、...

分散型アイデンティティサービス、権威あるプライバシー保護

インターネット+の時代は発展を続け、今や全世界がインターネットで覆われていると言ってもいいでしょう。...

SEOには、ネガティブなSEO感情を積極的に取り除くためのポジティブなエネルギーが必要です。

みなさんこんにちは。最近はSEO技術について深く研究しておらず、主に些細なことをやっていますが、グル...

Google が量子オープンソース ソフトウェアをリリースし、科学者向けに量子コンピューターを無料で提供開始!

2017 年 10 月 24 日 量子コンピュータの理論的なクラウド処理能力は従来のスーパーコンピュ...

IoTとクラウドコンピューティングの潜在的な関係を明らかにする

今日、周りを見渡すと、モノのインターネット (IoT) が家庭でも職場でも私たちの日常生活に大きな変...

2022 年に推奨されるホスティング プロバイダーは何ですか?

現在、マネージド サービス市場は、リモート ワークや需要の高い人材を IT チームに配置するという課...