スパイダークローリング機能を分析し、ウェブサイトの運用状況を把握する方法を教えます

スパイダークローリング機能を分析し、ウェブサイトの運用状況を把握する方法を教えます

日常のウェブサイトの運用とメンテナンスでは、スパイダーのクローリング状況を把握し、日常業務を調整するために、スペースの www ログを使用する必要があることがよくあります。以下では、ログの設定方法とスパイダーのクローリング機能の分析を段階的に詳しく説明します。これにより、各パラメータの意味を十分に理解し、独自の調整と変更の参考にすることができます。

まず、仮想ホストまたはサーバーでログ機能が有効になっていることを確認する必要があります。一般的に、仮想空間プロバイダーはコントロールパネルにwwwログ記録機能を備えており、ウェブマスターにダウンロードと分析を提供しています。以下はエディターが使用するログスタイルです。空間プロバイダーごとに手順と操作方法が異なるため、ここでは参考としてのみ使用します。

まず、図 1 をクリックするか、図 2 のインターフェイスに入ります。クリックしてウェブログをダウンロードすると、図 3 と図 4 のインターフェイスが表示されます。図 4 の各 TXT は年月日で名前が付けられ、ログのサイズが記録されます。クリックして詳細情報を表示します。

2番目:コード内でスパイダーの痕跡を見つけます。TXTログは数百KBまたは数千行に及ぶため、1つ1つ確認するのは非現実的です。スパイダーの特性を十分に理解し、クエリ機能を通じて素早く見つけ出す必要があります。スパイダーのコードはスパイダーであるため、スパイダーを検索すると、Baidu、Google、360など、スパイダーの訪問がすべて表示されます。Baiduスパイダーの特性はbaiduspiderです。ここでは、Baiduスパイダーの状況に焦点を当てます。

まず、メモ帳を使用してダウンロードしたTXT文書を開き、編集検索機能(図5)を使用してすばやく検索します。検索ボックスにbaiduと入力して確認を押すと、Baidu Spiderのクロールコードが見つかります(図6)。

3番目:Baidu Spiderのクローリングラインを見つけた後、エディターは各パラメータを説明し、対応する状況を示します(例の画像を参照)。

パラメータ 1: これは、Baidu スパイダーがコンテンツをクロールする時間です。この時間は通常、コンピューターの時間と 8 時間異なります。これは主に、ログ時間が北京時間と 8 時間異なるグリニッジ標準時を使用しているためです。つまり、対応する北京時間を取得するには、時間に 8 時間を追加する必要があります。したがって、スパイダーがクロールしたときにパラメータ 1 に表示される時間は、5 月 23 日の 13:08 です。

パラメータ 2: コンテンツをクロールする方法。GET はクロールを意味し、それに続く /index.html はクロールされたページです。これは、スパイダーがホームページをクロールしたことを意味します。GET の後に /-- が続く場合、スパイダーが何もクロールしていないことを意味します。この時点で、Web サイトの保守担当者の注意を引く必要があります。コンテンツに問題があるか、Web サイトのホームページのレイアウト、コンテンツと記事などに問題がある可能性があります。具体的な問題は具体的に分析する必要があります。

パラメータ 3: これは、スパイダーがコンテンツをクロールするときのサーバーの IP アドレスです。現在、多くのドメイン名が CNAME を使用して解決されているため、多くのウェブマスターは自分の Web サイトの IP アドレスさえ知りません。この IP アドレスは、スペース プロバイダーがスパイダーにコンテンツをクロールさせる IP アドレスです。Web サイトに問題がある場合は、この IP アドレスの Web サイトの数と含まれる Web サイトの数を確認することで、関係があるかどうかを判断できます。

パラメータ 4: このパラメータはプロトコルのステータスを示します。通常、200 は正常、404 はファイルが見つからない、500 は内部サーバー エラーを意味します。通常、Web サイトのすべてのページが 200 であれば正しいはずです。バージョンが改訂されると、通常 404 エラーが発生します。ここでは、さまざまな戻り値に基づいて具体的な理由を照会する必要があります。

話題から外れますが、ウェブマスターは新しいウェブサイトがオンラインになった後、スパイダーがクロールしてインデックスを付け、ウェブサイトのランキングが高くなるのを心待ちにしています。しかし、現在のBaiduスパイダーによる新しいウェブサイトのレビューは非常に厳しく、その時間は通常20日以上です。そのため、Baiduスパイダーにコンテンツをクロールさせて良いランキングを獲得することはますます難しくなっています。スパイダーがますます賢くなるにつれて、欺瞞やブラックハットの方法でスパイダーの信頼を得ることは容易ではありません。たとえ成功したとしても、Baiduの不正防止センターによるウェブサイトの詳細な検査で発見され、不正行為の程度に応じて不正行為のウェブサイトは罰せられます。したがって、ウェブマスターには、ウェブサイトを着実に構築し、ホワイトハットの専門家になることに集中することをお勧めします。そうすれば、管理している企業ウェブサイトのランキングが心配になることはありません。

上記の記事は、A 5 に Sichuan Boric Acid http://www.cdxzhg.com によって最初に公開されました。すべてのウェブマスターと共有したいと考えています。転載する必要がある場合は、出典を明記してください。ご協力ありがとうございます。


元のタイトル: スパイダークローリング機能を分析し、ウェブサイトの運用状況を把握する方法を教える

キーワード:

<<:  動画サイトの現状とサイト最適化運用方法

>>:  SEOとは何だと思いますか?

推薦する

ウェブサイト構築における小さな親切行為を怠らないようにし、マーケティングにおける小さな悪行を怠らないようにする

ウェブサイトの構築と開発は、ウェブマスターにとって最優先事項です。ウェブマスターにとって、1日食事を...

鉄道省がチケット購入に関する秘密検査を実施:Ctrip、JD.comなどのオンライン商店が打撃を受ける

李娟鉄道省は鉄道切符購入代理店に対する取り締まりを実施している。中国最大のオンライン旅行サイト「Ct...

ジェネレーション Z 洞察レポート

ジェネレーション Z インサイト レポートを皆さんと共有したいと思います。 QuestMobileの...

新旧サイトの最適化操作の違い

ウェブサイトの SEO 最適化戦略を策定する際に、まず最初に明確にする必要があるのは、このウェブサイ...

4か月間降格されたサイトの記事を通常の状態に戻す方法

今日は木曜日、寝る前に、多くのウェブマスターと同じようにウェブサイトの状態を確認しました! 私のウェ...

次世代サーバ仮想化の特徴分析

仮想化テクノロジーは企業の世界に旋風を巻き起こしました。その成功により、IT 部門が仮想化インフラス...

Taoxie.comのホームページから学んだnofollowの使い方

中国最大の靴のB2CウェブサイトであるTaoxie.comは、ウェブサイト構造の最適化において一定の...

shuhost: 香港サーバー20%割引、10M~30M帯域幅、e3シリーズは月額432元から、Windows+3IP内蔵

Shuhost Technology (shuhost) は、8 月に香港データセンターの独立サーバ...

誰もが雷鋒である——ソーシャルプラットフォームがユーザーエンゲージメントを向上させる方法

多くのソーシャル プラットフォーム開発者は、ポイント、レベル、リーダーボードなどのゲームのようなメカ...

米国の求人サイト「モンスター」は第4四半期の収益が2%減少し、400人の従業員を解雇すると発表

北京時間1月27日、外国メディアの報道によると、ChinaHR.comの主要株主であり米国最大の求人...

動画マーケティング ターゲットユーザーが積極的に検索したくなるようなシンプルな動画を作成します

もし、あなたのターゲットユーザーが、あなたが運営する商品カテゴリーに関連する動画を積極的に検索し、た...

WeChatマーケティングのいくつかの主流の手法についての簡単な説明

WeChatの紹介WeChat(公式サイト:http://weixin.qq.com/)は、テンセン...

2017年のコンテナ業界の振り返りと2018年の技術ホットスポットの予測

コンテナ技術に関して言えば、2017 年は「Kubernetes の年」であると言っても過言ではあり...

公安省が太平洋直接購買の捜査に着手:地域チャネルディーラーを逮捕

昨日の朝、江西省南昌市警察は「ワンダフルライフ」本部で捜査を行った。 呉文昌の絵画モーニングポスト記...

分散キャッシュの高可用性ソリューションを実現する方法

[[284637]]データベース ディスク IO の同時実行性の増加によりシステムのパフォーマンスの...