暁蘇:ウェブサイトのオリジナルアクセスログの浅いところから深いところまでの分析について語る

暁蘇:ウェブサイトのオリジナルアクセスログの浅いところから深いところまでの分析について語る

最近、筆者はSEOを始めたばかり、またはSEOに1~2年従事している50人以上のSEO担当者を対象に小規模な調査を実施しました。その中には多くのインタビュー対象者も含まれています。実際に仕事でログを分析できるSEO担当者の割合は、非常に少ないです。SEOにおけるアクセスログの役割について尋ねると、多くのSEO担当者は首を横に振ったり、表面的な知識しか持っていなくても自分で操作したことがありませんでした。主な理由は、会社のプラットフォームで実践する機会がなかったためです。以下は、Webサイトの元のアクセスログに関する私の理解です。

アクセスログとは

ウェブサイトのアクセス ログは、.log で終わるファイルで、ウェブ サーバーがリクエストを受信して​​処理する様子や実行時エラーなど、さまざまな生の情報が記録されます。正確には、サーバー ログです。その機能は、SEO 担当者が、ユーザーがウェブサイトのどのページを訪問したか、どの IP で、いつ、どのオペレーティング システム、どのブラウザ、どの解像度のモニターを使用しているか、また訪問が成功したかどうかを明確に把握できるようにすることです。

ログとログ機能を分析する必要があるのはいつですか?

ログを毎日分析しますか? いいえ、ログ分析はかなり退屈なので、通常は月に 1 回または半月に 1 回行われます。このタイプの分析は、毎日の分析に属します。Web サイトが比較的正常であれば、月に 1 回分析するか、簡単な分析を 1 回実行できます。

実は、ログはWebサイトに異常が発生したときに採取されることが多いです。半月ほどログを観察し、スパイダーの動きを中心に分析していきます。例えば、ウェブサイトが404になっていないか、ロボットの設定に異常がないか、スパイダーが消える原因となったトロイの木馬がないかなどを分析し、問題点を一つずつ見つけて解決していきます。

以下は私が毎日分析しているログから取得したアクセス記録です。

119.254.22.200 - - [10/Apr/2012:00:04:54 +0800] "GET /bbjk/index.html HTTP/1.0" 200 25269 "-" "Sogou ウェブスパイダー/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

119.254.22.200はユーザーアクセスIPです

10/Apr/2012:00:04:54 +0800はアクセス日時ゾーンです

GET /bbjk/index.html HTTP/1.0 HTTP/1.1 プロトコルに従って、ページ /bbjk/index.html (ドメイン名の下) をクロールします (GET はサーバー アクションを示します)

200 サーバー応答ステータスコード

25269 はページバイト数です。

Sogou ウェブ スパイダー/4.0 (+http://www.sogou.com/docs/help/webmasters.htm#07) は、Sogou スパイダー機能です。

注: スパイダーは、Web サイトの通常のユーザーです。スパイダーが非常に強力だと思わないでください。Web サイトがコンテンツを表示するためにログインを禁止している場合、スパイダーはログイン後にページのコンテンツをクロールできると信じている人がまだたくさんいます。これは不可能です。ただし、Web サイトがスパイダー固有のメソッドを実装している場合は除きます。

ウェブサイトのアクセスログを分析する方法

数年前、私が初めて SEO に触れたとき、ツールが不足しており、常に手書きでメモを取るのが好きだったことを覚えています。

アクセスログを解析するには、もちろん手動で解析するのは時間がかかり、手間がかかります。ここでは、手動ログ解析で私が最も気に入っている点をいくつか説明します。

著者の現在の手動分析は、一般的に、Web サイト上の毎日のスパイダー クローリング パターンと Web サイト更新データとの関係を調査することに重点を置いています。もちろん、各ウェブサイトは独自に遵守する必要があり、最終的には非常に完璧なルールが生まれます。

著者は、毎日のクモの訪問時間を期間ごとに分類し、レポートを作成します。

例: 2012-4-18 の 1 時から 2 時まで 5 回クロールする

2-3ポイントクロール3回

3-4点クロール10回

注意深く行えば、非常に直感的なトレンドチャートを作成できます。このタイプの統計は、通常、Web サイトが開設された直後、または Web サイトで異常が発生したときに分析ログで強化されます。日常の運用では、スパイダーの毎日のクローリング パターンを分析し、定期的に追加の記事を公開して包含を増やすことに重点が置かれます。

手動でのログ分析は退屈で、気分を害することもあります。しかし、ツールが普及しているこの時代では、ツールを使用することで、半分の労力で 2 倍の結果を達成することもできます。

著者は Lightyear ログ分析ツールを推奨しています。このツールは非常にシンプルなので、ここでは説明しません。興味があれば、Baidu で検索してください。このツールの利点は、生成されたレポートでスパイダーのクローリングの異常とページのクローリングの痕跡を明確に伝えることができることです。たとえば、404 などです。唯一の残念な点は、スパイダーのクローリング ルールを分析してトレンド チャートを生成できるツールをまだ見つけていないことです。

注: ログ分析では、自分の問題を改善するためにログから問題を見つけたい場合が多いため、404 や 301 などのステータス コードには特に注意する必要があります。

本物のクモと偽物のクモの見分け方

本物のスパイダーと偽物のスパイダーが存在する主な理由は、現在、情報が溢れているためです。相手に痕跡を発見されないように、多くの収集ツールはスパイダーの痕跡をシミュレートしてデータソースをダウンロードします。そのため、多くの SEO 担当者は、スパイダーが多数のページをクロールしていると誤解していますが、インデックスされたページの数は増えていないことに気づきます。以下では、本物のクモと偽物のクモを簡単に見分ける方法と、特に注意すべき点について説明します。

1. 本物のクモ

220.181.108.96 - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (互換; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

これは私のウェブサイトのログの一部です。IP アドレスを取り出し、Windows システムの DOS ボックスに nslookup 220.181.108.96 と入力して出力を表示しました。

上記のように、Baidu スパイダーの場合は、Baidu のドメイン名を直接エコーします。

2. 偽のクモ

典型的な偽スパイダーは、Baidu スパイダーをシミュレートするクエリ ツール chinaz です。その IP アドレスは 125.90.88.96 です。リバース チェックを行っても、Baidu ドメイン名は見つかりませんでした。興味があれば、nslookup 125.90.88.96 を実行してください。スクリーンショットは撮りません。

一般的に、偽のスパイダーは次の形式で存在します: XXX.XXX.XXX.XXX - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

IP アドレスが怪しいことを除けば、本物とまったく同じように見えます。

3. 特殊な状況におけるクモ

1) CDN アクセラレーション後、IP の混乱が発生します。

このような状況は、通常、Web サイトに CDN アクセラレーションが実装されている場合に発生します。Apache サーバーのアクセス ログを確認すると、多くのスパイダー トレースに非常に類似した IP アドレスがあることがわかります。Baidu の公式識別方法に従って識別方法 nslookup IP を使用すると、これらの IP アドレスは CDN ノード IP アドレスであるため、間違いなく匿名になり、誤解を招くことになります。 CDN が有効になっている場合、スパイダーの実際の訪問数は通常、ログ内のスパイダーの合計数以下になります。

2) Baiduの匿名スパイダーの存在についての議論。

匿名の蜘蛛? Baidu のエンジニア Lee 氏は、Baidu のスパイダーが匿名でウェブサイトを訪問することはないということを常に強調してきましたが、著者はインターネット上の情報を参考にし、著者の特定のサイトのデータに基づいて推測しました。私は、次の 2 つの状況があると考えています。

1 つ目は、匿名のスパイダーが本当に存在する場合、これは明らかに Lee 氏の発言に反するということです。したがって、これを弁証法的に理解することができます。存在する場合、匿名スパイダーは何をしますか? 著者を含む多くの SEO 担当者は、そのようなスパイダーは、Web サイトがスパイダーとユーザーを別々に扱っているかどうかを確認するために使用される可能性があると推測しています。したがって、このような状況では、泥棒のように罪悪感を感じることなく、正直にウェブサイトを運営するべきです。

2 番目の可能性: Baidu の社員が社内であなたの Web サイトを訪問した可能性があります。Baidu の社員も人間であり、感情や欲望を持っています。おそらく、あなたの Web サイトは彼らの 1 人に発見され、あなたの Web サイトを訪問した後、Baidu IP を離れ、誤解を引き起こしたのでしょう。 (実際、百度のオンラインアライアンス部門など多くの部門が顧客情報を収集している)

注意: 本物のスパイダーと偽物のスパイダーを区別するときは、多くの側面を考慮する必要があり、IP のみを使用して信頼性を判断しないでください。

最後に、上記は著者が最近ウェブサイト http://baby.wenkang.cn を分析した経験です。短い経験談を書きたかったのですが、いつの間にか 3,000 語近くになってしまいました。質問がある場合は、私の QQ: 123464947 を追加してください。 --- Xiao Su、私に連絡して一緒に話し合ってください! 3 人の中には必ず先生がいて、一緒に進歩していきます!

原題: Xiao Su: ウェブサイトのオリジナルアクセスログの分析について、浅いところから深いところまで語る

キーワード: ログ、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  中小企業はどのようにして優れた SEO アウトソーシング チームを選択するのでしょうか?

>>:  YihaodianオンサイトSEO最適化分析(I):オンサイトURL最適化

推薦する

エッジコンピューティングは、今後10年間のエンタープライズIT変革の原動力となる

予測によれば、世界の5G加入者数は2020年末までに2億2000万人に達し、そのうち中国が1億750...

SEO のためにやってはいけないことは何ですか?

インターネットの急速な発展に伴い、中国のインターネットユーザーもますます増えています。インターネット...

漸進的な魅力により、潜在的なユーザーが製品を理解し、実際にコンバージョンを完了できるようになります。

[編集者注] この記事の著者である Nathan Barry は Web アプリケーション開発者であ...

DockerのエントリポイントとCMDの違い

Docker の Entrypoint と Cmd はどちらも、コンテナの起動時に実行されるコマンド...

SEO実践体験:ウェブサイトがKになる問題を解決する方法

1. ブロックされたウェブサイトとは何ですか?ウェブサイトがブロックされると、ウェブマスターはそれを...

phpwindを例にnofollowの使い方を紹介します

Nofollow は 2005 年に Google によって導入されました。その機能は、スパイダーに...

#黒5# anynode: ラスベガスの VPS、年間 8 ドルから、KVM/512M メモリ/1 コア/10gSSD/1T トラフィック

anynode、私はすでに知っていますが、ラスベガスのデータセンターの VPS ではブラックフライデ...

国内SEOの現状分析:SEOをやるときに面倒なのはなぜ?

Ant Online は今日、Zhihu の投稿を見ました: Zhihu の「XXX はどのような ...

困難を克服するプログラマー - 分散セッション問題の解決

[[339154]]セッション セッションについて言えば、すべてのプログラマーはそれをよく知っており...

競合他社と比べて何が欠けていて、ウェブサイトのランキングが変動するのでしょうか?

最近、多くの友人が Xinchen に、なぜ自分のウェブサイトのランキングが下がったのか、なぜ他のウ...

Redis を使用して分散クラスタ システムの電流制限を設計する方法

同時実行性の高いリクエストが多数ある場合、システムの現在の制限とアプリケーション クラスターのグロー...

ソフト記事マーケティング:みんなが読んでくれると本当にいい

ソフトコンテンツマーケティングはオンラインプロモーションの最重要課題と言えます。しかし、ソフトな記事...

arkecx の新しい韓国 SK ライン クラウド サーバー (1Gbps 帯域幅、直接接続) の簡単なレビュー

Zenlayer傘下のクラウドサーバーブランド「Arkecx」は、韓国ソウルに新データセンターを開設...

「コミュニティ3.0」の解釈

Community 3.0 は、スマートフォンで使用されるコミュニティ アプリケーションを指します。...

検索エンジンマーケティングの初心者と専門家を区別する方法

国内インターネットの過去 10 年間で、検索エンジン マーケティングは著しい成長を遂げました。SEO...