IIS ログから検索エンジン スパイダーの活動の痕跡を見つけることについて議論する

IIS ログから検索エンジン スパイダーの活動の痕跡を見つけることについて議論する

サイト最適化のプロセスでは、サイトの問題をすべてウェブマスター ツールから直接取得できるわけではありません。多くの場合、ウェブマスター ツールから取得できる情報は、サイトで問題が発生した後でのみ検出できます。 SEO 担当者として、サイトの隠された情報についてさらに詳しく知る必要があります。たとえば、過去数日間に作成した外部リンクの結果はどうなっているか。コンテンツのどの側面が検索エンジン スパイダーに好まれる可能性が高いか。検索エンジン スパイダーはどの程度積極的にサイトをクロールしているか。など、これらはサイトのコンテンツ部門に隠された重要な情報です。ウェブマスターツールを通じてこの情報を分析することは困難です。この情報は当サイトの IIS ログで確認できます。

1: サイトの非表示情報を分析する上で IIS ログが重要な理由

1:この日記記録を通じて、スパイダーのクローリングルートやクローリング深度など、ウェブサイト上の検索エンジンスパイダーのクローリング情報をより明確に分析できます。このデータと情報を通じて、最近構築した外部リンクの有効性を分析できます。外部リンクは、クモが這うように導くクモの糸のようなものだということを私たちは知っているからです。外部リンクが適切に構築されていれば、クモは自然に這う頻度が高まり、クモが最も頻繁に入る「入り口」を記録できます。

2:ウェブサイトのコンテンツ更新とスパイダーのクロールには一定の関係があります。一般的に、安定して頻繁に更新する限り、スパイダーはより頻繁にクロールします。この目的のために、ログ内のスパイダー訪問頻度を使用して、Web サイトのコンテンツの更新頻度を微調整できます。

3: ログを通じて、一部のウェブマスター ツールでは検出されない可能性のある、スペース内のいくつかの障害を発見できます。例えば、最近人気のMeicheng Spaceは、技術者の誤操作によりBaidu Spiderをブロックしました。ウェブマスターが事前にスペースのログを分析していれば、このエラーを発見できたかもしれません。

2. ログファイルの取得方法と注意すべき事項

1: ログ ファイルを取得するには、当スペースに IIS ログ機能が必要です。当スペースにこの機能がある場合、ログ ファイルは通常、ウェブログ フォルダに記録されます。このフォルダから当サイトのログ ファイルを直接ダウンロードできます。

2: この機能を使用する場合、ログ生成時間の設定に注意する必要があります。作者の提案では、サイトが小規模な場合は 1 日に 1 回生成できます。大規模なサイトの場合は、生成されるファイルが大きくなりすぎないように、1 時間ごとに更新するようにすることができます。

3. クモの行動を分析し解釈する方法

サイトのログ ファイルをメモ帳で開き、メモ帳の検索機能を使用して、Baidu と Google のスパイダー (それぞれ BaiduSpider と Googlebot) を検索できます。

百度スパイダー

Googleスパイダー

以下のセクションに分けて分析することができます。

2012-04-5 00:47:10 この時点でクモがサイトに侵入したのです

116.255.109.63 このIPは当サイトを参照しています

GET の後に、スパイダーによってクロールされたページが続きます。ここから、どのページが最近クロールされたかを把握できます。 。

220.187.51.144 は IP 検索エンジン スパイダーの IP アドレスです。もちろん、ここには本物のアドレスと偽のアドレスが 2 つある可能性があります。では、このアドレスが本物のスパイダーなのか、偽装されたものなのかをどうやって見分けるのでしょうか。この記事では、著者が独自の小さな方法を紹介します。コマンド ウィンドウを開き、nslookup+ウィンドウ内のいわゆるスパイダーのアドレスを実行します。スパイダーが本物であれば、独自のサーバーを持っているはずですが、そうでなければ情報を見つけることができません。

本物の蜘蛛

偽の蜘蛛

では、なぜログに偽のスパイダーが存在するのでしょうか? その理由は、他のサイトが偽のスパイダーを装ってクロールし、サイトのコンテンツを取得するためです。これらの偽スパイダーが横行すると、サイトのサーバー消費に一定の影響が生じます。この方法を使用して、スパイダーを見つけてブロックすることができます。もちろん、慎重に扱う必要があります。そうしないと、実際のスパイダーを締め出すのに悪影響が出ます。

200 0 0 は、Web ページの通常のステータス コードを表します。もちろん、サーバーのタイムアウトを示す 500 など、異なる値を持つ他のステータス コードもあります。これらのステータス コードを使用して、サイト スペースの最近のパフォーマンスを分析できます。

スパイダーが最も頻繁にアクセスするページのログ ファイルを分析して記録し、スパイダーがそれらのページを好む内部的および外部的な理由を見つけることができます。

ウェブマスターとして、ほとんどの人はトラフィック、インクルージョン、バックリンクなどの直感的なデータの分析には慣れているかもしれませんが、ログ ファイルの分析には慣れていないかもしれません。ただし、ログはサイトにとって非常に重要です。この記事がログ ファイルの分析に役立つことを願っています。この記事は、Sanmianfans http://www.sanmianfans.com からの引用です。転載の際は出典を明記してください。


元のタイトル: IIS ログから検索エンジン スパイダーのアクティビティの痕跡を調査することについて話す

キーワード: トーク、iis、ログ、中潭、検索、インデックス、清珠、スパイダー活動、動的トレース、サイト、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  ウェブサイトには360°診断が必要

>>:  時代に合わせた製品はさらに進化できる

推薦する

Google Chromeブラウザは「Do Not Track」プライバシー保護ポリシーをサポートしています

2月26日のニュース、海外メディアの報道によると、最近、Googleは「Do Not Track」プ...

ブラックフライデーが近づいています。ホスティング、ドメイン名、VPSに多額のドルを費やす準備をしてください。

11 月 23 日は、西洋ではブラック フライデーと呼ばれています。この日は、ホストやドメイン名の販...

Google ウェブサイト オプティマイザー レポートの解釈

以前、Google Website Optimizer を使用して、ブログのいくつかのテスト ページ...

Kafka トランザクションフローの基礎から実践まで

イベント ソーシング、結果整合性、マイクロサービス、CQRS など、現代の開発者にとって馴染みのある...

Weiboマーケティングで成功するには習得すべきいくつかの効果的な方法

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスWeibo は、企業のニ...

ウェブマスターネットワークからの毎日のレポート:リベートウェブサイト詐欺が発覚、Xiaomiの携帯電話が購入可能に

百葉連盟の消費者還元チェーンが破綻、10億元以上の元本が宙に浮いたまま運用開始からわずか半年だった百...

ウェブサイトのコンテンツ構築と制作について考える

ユーザーのニーズは変化し続けます。検索エンジンは常に適応しています。今日のユーザーは、Web サイト...

1週間ブロックされた後のウェブサイト822の回復プロセス

みなさんこんにちは。今日この記事を書いたのは、主にブロックされたウェブサイトからの回復の最近の過程を...

暑い夏:ライトレールの乗客の流れの人気はウェブサイトのユーザーエクスペリエンスを反映している

今年の夏は気温が非常に高く、北部の沿岸都市大連でも秋に入ってから気温が33度を記録した。気温がどれだ...

エッジコンピューティング戦略を導入する際にITリーダーが認識すべき5つの欠点

翻訳者 |朱剛校正 |梁策と孫淑娟 エッジ テクノロジーは来年さらに勢いを増すと予想されていますが、...

スパムコンテンツはウェブサイトに悪影響を及ぼす可能性がある

SEO オペレーターの多くは、一般的に、Web サイトのコンテンツの更新と外部リンクの投稿という 2...

分散コンピューティングに Redis を使用するのはなぜですか?

ビジネスアプリケーションを作成するプログラマーの多くは、実際の開発で Redis を使用する際に S...

Black 5 期間中、有料 WordPress テーマ Sahifa が 25,000 部、50% 割引で販売されました。

themeforestには、SahifaというWordPressのレスポンシブテーマがあり、25,0...

昨夜の百度ランキングの急落の理由についての推測

昨晩、百度が更新されました。百度の今週の小さな更新でした。百度が更新されるたびに、いつも「喜ぶ人もい...