ウェブサイトが完全にインデックスされない本当の理由を明らかにする

ウェブサイトがオンラインになった後、最初にすべきことは、URLを検索エンジンに送信することです。URLのリクエストを受け取った後、検索エンジンはスパイダーを手配してウェブサイトをクロールします。しかし、残念なことに、スパイダーは必ずしもウェブサイトを完全に含めることはできません。ウェブサイトの実際の包含率は非常に低いです。ウェブサイトが完全に含められない理由は何ですか？ウェブサイトの構造、ウェブサイトの重量、またはウェブサイトの最適化に問題がありますか？広州アルバイトバーは、完全に含められない本当の理由を明らかにします。

1 番目: robots.txt ファイルによってブロックされました。ウェブサイトのログを分析すると、スパイダーが毎日ウェブサイトをクロールしているが、ウェブサイトがまだ完全にはカバーされていないことがわかりました。このとき、ウェブサイトのロボットファイルを検出する必要があります。ウェブマスターは皆、スパイダーがウェブサイトをクロールするときに、まずウェブサイトにロボットファイルがあるかどうかを検索し、ウェブサイトにクロールする必要のないページがあるかどうかを確認し、ファイルがウェブサイトのコンテンツの一部をブロックしていないかどうかを確認します。多くのウェブマスターはロボットファイルを正しく記述する方法を知らず、それがウェブサイトが完全にカバーされないことにつながります。ファイルの書き方が分からない初心者ウェブマスターの多くは、Baidu Webmaster Tools の robots.txt ファイル機能を使用して、ファイルの書き方が正しいかどうかを検出したり、直接ファイルを生成したりできます。保護されたファイルパスを入力するだけで済みます。次の例のように:

ユーザーエージェント: *

許可しない: /news / は、すべての検索エンジンがニュースパスの下にあるコンテンツをクロールすることを許可しません。

上記のファイルをウェブサイトに追加すると、スパイダーはウェブサイトのニュースパス以下のコンテンツをクロールしなくなり、ウェブサイトがニュースディレクトリに更新した記事が含まれなくなります。ウェブサイトが更新した記事の数に関係なく、スパイダーはアクセスログで毎日クロールしますが、これらのコンテンツは含まれません。しかし、ニュースの下にあるコンテンツはウェブサイトにとって非常に重要であり、このような誤ったロボットファイルがウェブサイトが完全にインデックスされない原因となります。

2つ目：robotsメタタグは禁止されています。診断プロセス中に、ウェブサイトの実際の包含率が非常に低いことがわかりました。ウェブサイトの一部のコラムページは完全に包含できましたが、一部のコラムページは元の記事を更新したため包含されませんでした。その後、ウェブサイトのコードを確認すると、ページでnoindexタグが使用され、スパイダーにこのページのインデックスを許可しないように指示していることがわかりました。当然、このコードを保護するコラムページは包含されず、更新されたコンテンツは品質が高くてもクロールされません。同時に、nofollow タグは、このページのリンクが重みを渡さないことをスパイダーに伝えます。Web サイトのすべてのページリンクに nofollow がある場合、これは検索エンジンにこのページに価値がないことを伝える明確な方法です。サイトが完全にインデックスされていない場合は、メタタグをチェックして、間違ったタグがないか確認してください。

3: ページが訪問されていない。特に一部の大規模なコンテンツウェブサイトの場合、ウェブサイトには多くのコンテンツページがあります。ウェブサイト間の内部リンクが適切に確立されていない場合、多くのページが最下部に沈み、含まれないという現象に直面する可能性があります。これらのページのほとんどは、ウェブサイトのホームページから深いところにあり、スパイダーがページをクロールできないため、スパイダーに含まれません。または、このページへのリンクはすべて nofollow タグが付けられており、重みが渡されません。この理由でウェブサイトが完全に含まれないのは不公平です。ウェブサイトの構築では、スパイダーがウェブサイト上で認識できないnofollowタグ、JSコード、リダイレクトを使用しないことが最善です。ページの階層が深いウェブサイトの場合、ウェブマスターはウェブサイトのページを独立したページに変えずにウェブサイトの内部リンク構造を改善し、適切なナビゲーションと内部リンクを確立したり、含めたいページに外部リンクを追加したりすることで、検索エンジンでのページの重みを高めることができます。

4 番目: スパイダーはコンテンツを不正行為とみなします。Web サイトは、ページを最適化するためにブラックハット SEO や不正行為の手法を多用しています。スパイダーはそのようなページを含めません。ウェブサイトで長期間隠しテキストを使用してページ上にキーワードを積み重ねると、スパイダーがウェブサイト上の隠しテキストとリンクの存在を検出すると、ウェブサイトはスパイダーによってインデックスから削除され、検索ページに再び表示されなくなります。ウェブマスターは、不正コンテンツとは何かと尋ねるかもしれません。たとえば、最初の不正方法は、背景と同じ色のテキストを使用し、大量のキーワードを積み重ねます。この不正方法は簡単に検出されます。noscriptタグを使用して、ページにJSがある場合、およびブラウザが閉じられている場合に、ページにどのコンテンツを表示するかをブラウザに指示します。実際には、noscriptタグに大量のキーワードを積み重ねています。この行為は非常に危険であり、簡単にコンテンツの削除につながる可能性があります。

5番目：低品質コンテンツのジャンクサイト。上記の4つの最適化方法の理由に加えて、無視できないもう1つの重要な問題は、ページ自体の問題です。検索エンジンの認識能力は徐々に強化されています。高品質でオリジナルではないコンテンツの場合、スパイダーはそれを認識する一定の能力を持っています。ウェブサイト自体の重複コンテンツであろうと、外部から取得した重複コンテンツであろうと、スパイダーはそれをある程度認識できます。重複コンテンツのページの場合、スパイダーはそれらを自分のデータベースに追加し続けず、一部の権威の低いウェブサイトのインデックスを削除することさえあります。インターネットジャンクバブルの時代に、完全な包括性と高いウェブサイトの重みを本当に達成したいのであれば、業界で長く生き残れるように、高品質のコンテンツを作成することにこだわる必要があります。

広州アルバイトバー（http://gz.jianzhi8.com）は、ウェブサイトの重みが高くなくても、ウェブサイトが上記の5つの間違いを犯していない限り、ウェブサイトは十分に受け入れられると考えています。インターネットジャンクバブルの時代は永遠に終わりませんが、ウェブマスター自身がその一人にならず、真剣に自分の最適化を行い、検索エンジンのルールに違反せず、アルゴリズムの更新に対応していれば、ウェブサイトは長期間安定して存続することができます。

原題: ウェブサイトを完全に含めることができない本当の理由を明らかにする

キーワード: 公開、ウェブサイト、できない、含める、実際、理由、最初、送信、URL、ウェブマスター、ウェブサイトのプロモーション、収益化

<<: 沈国軍: 電子商取引以前の時代の「見えざる主人」

>>: 年末のウェブサイト最適化を把握し、競合他社を簡単に上回りましょう