A5 Webmaster Networkは8月22日、以前、Baidu Webmaster PlatformのLee氏が検索エンジンクローリングシステムの基本的なフレームワーク、クローリングに関係するネットワークプロトコル、クローリングの基本的なプロセスに関するコンテンツを共有したと報じた。Lee氏は今日、Baidu Webmaster Platformを通じて検索エンジンクローリングシステムの第2部であるスパイダークローリング時の戦略を再び共有した。 Lee氏は、スパイダーはクローリングの過程で複雑なネットワーク環境に直面すると述べた。システムが可能な限り多くの貴重なリソースをクローリングできるようにし、システム内のページと実際の環境の一貫性を維持しながら、ウェブサイトのエクスペリエンスに負担をかけないようにするために、さまざまな複雑なクローリング戦略が設計されるだろう。クローリング プロセスに関係する主な戦略の種類を簡単に紹介します。 この記事は、Baidu Webmaster Platform Community - You Ask Lee Answer セクションに掲載され、Lee 氏もこの記事について質疑応答活動を行いました。質問がある Webmaster はオンラインで質問し、コミュニケーションを取ることができます。 コミュニティ投稿アドレス: Lee 氏は次のように語りました。 編集者注: 以前、検索エンジンのクローリング システムの基本的なフレームワーク、クローリングに関係するネットワーク プロトコル、クローリングの基本的なプロセスについて説明しました。今日は、検索エンジンのクローリング システムの 2 番目の部分であるスパイダー クローリング プロセスの戦略について説明します。 スパイダーは、クローリングの過程で複雑なネットワーク環境に直面します。システムが可能な限り多くの貴重なリソースをクローリングし、Web サイト エクスペリエンスに負担をかけずにシステム内のページと実際の環境の一貫性を維持できるようにするために、さまざまな複雑なクローリング戦略が設計されます。以下は、クロール プロセスに関係する主な戦略タイプについて簡単に紹介したものです。 1. クロールフレンドリー: クロール圧力の割り当てにより、ウェブサイトへのアクセスの負荷が軽減されます。 2. 一般的なクロールリターンコード 3. 複数のURLリダイレクトの識別 4. クロール優先度の割り当て 5. 重複URLのフィルタリング 6. ダークウェブデータの取得 7. クロールアンチチート 8. クロール効率を改善し、帯域幅を効率的に使用する 1. クロールフレンドリー インターネット リソースの膨大な量を考慮すると、クロール システムは帯域幅をできるだけ効率的に利用し、限られたハードウェアと帯域幅のリソースでできるだけ多くの貴重なリソースをキャプチャする必要があります。これにより、キャプチャされた Web サイトの帯域幅が消費され、アクセス圧力が発生するという別の問題が発生します。その程度が大きすぎると、キャプチャされた Web サイトへの通常のユーザー アクセス動作に直接影響します。したがって、クロール プロセス中は、できるだけ多くの貴重なリソースをクロールしながら、Web サイトへの通常のユーザー アクセスに影響を与えないという目標を達成するために、一定のクロール圧力制御を実行する必要があります。 通常、最も基本的なのは IP ベースの圧力制御です。ドメイン名をベースとした場合、1 つのドメイン名が複数の IP に対応している (多数の大規模 Web サイト) か、複数のドメイン名が同じ IP に対応している (小規模 Web サイトが IP を共有している) という問題が発生する可能性があるためです。実際には、IP やドメイン名のさまざまな条件に基づいて圧力の割り当てと制御が行われることがよくあります。同時に、ウェブマスタープラットフォームは圧力フィードバックツールもリリースしました。これにより、ウェブマスターは自分のウェブサイトのクローリング圧力を手動で調整できます。このとき、Baiduスパイダーはウェブマスターの要求に応じてクローリング圧力の制御を優先します。 同じサイトのクローリング速度制御は、通常、一定期間内のクローリング頻度と一定期間内のクローリングトラフィックの 2 つのカテゴリに分けられます。同じサイトでも、時間帯によってクロール速度が異なる場合があります。たとえば、夜遅く、月が暗く、風が強いときはクロール速度が速くなることがあります。また、具体的なサイトの種類によっても異なります。基本的な考え方は、通常のユーザー訪問のピークを避け、継続的に調整することです。サイトによって必要なクロール速度も異なります。 2. 一般的なクロールリターンコード Baidu でサポートされているいくつかの戻りコードについて簡単に紹介します。 1) 最も一般的な 404 は「NOT FOUND」の略で、Web ページが無効であり、通常はデータベースから削除されることを意味します。短期的には、スパイダーがこの URL を再度見つけた場合、クロールは行われません。 2) 503 は「Service Unavailable」の略で、Web ページが一時的にアクセスできないことを意味します。この状況は通常、Web サイトが一時的に閉じられているか、帯域幅が制限されている場合に発生します。ウェブページが 503 ステータス コードを返す場合、Baidu スパイダーは URL を直接削除するのではなく、短期間に何度も繰り返しアクセスします。ウェブページが復元された場合は、通常どおりクロールされます。503 が引き続き返される場合は、URL は依然として壊れたリンクと見なされ、ライブラリから削除されます。 3) 403 は「Forbidden」の略で、Web ページへのアクセスが現在禁止されていることを意味します。新しい URL の場合、スパイダーは当面クロールしませんが、短期間に複数回繰り返して訪問します。含まれている URL の場合、直接削除されるのではなく、短期間に複数回繰り返して訪問します。ウェブページが正常にアクセス可能な場合は、通常どおりクロールされます。それでもアクセスが禁止されている場合は、この URL もリンク切れと見なされ、ライブラリから削除されます。 4) 301 は「Moved Permanently」の略で、Web ページが新しい URL にリダイレクトされることを意味します。サイトの移行、ドメイン名の変更、またはサイトの改訂が発生した場合は、改訂によるウェブサイトのトラフィックの損失を減らすために、301 リターン コードとウェブマスター プラットフォームのウェブサイト改訂ツールを使用することをお勧めします。 3. 複数のURLリダイレクトの識別 インターネット上の一部の Web ページは、さまざまな理由により URL リダイレクト状態になっています。これらのリソースを正常にクロールするには、スパイダーが URL リダイレクトを識別して判断し、不正行為を防止する必要があります。リダイレクトは、http 30x リダイレクト、メタ リフレッシュ リダイレクト、js リダイレクトの 3 つのカテゴリに分けられます。さらに、Baidu は Canonical タグもサポートしており、これは実質的には間接的なリダイレクトと見なすことができます。 4. クロール優先度の割り当て インターネット リソースは規模が大きく、変化が速いため、検索エンジンがすべてのリソースをクロールし、一貫性を保つために適切に更新することはほぼ不可能です。そのため、クロール システムは、適切なクロール優先順位割り当て戦略を設計する必要があります。主に、深さ優先トラバーサル戦略、幅優先トラバーサル戦略、PR優先戦略、バックリンク戦略、ソーシャル共有ガイダンス戦略などが含まれます。それぞれの戦略には長所と短所があり、実際の状況では、最良のクローリング効果を実現するために、複数の戦略を組み合わせて使用されることがよくあります。 5. 重複URLのフィルタリング クロール プロセス中に、スパイダーはページがクロールされたかどうかを判断する必要があります。クロールされていない場合は、Web ページを再度クロールし、クロールされた URL コレクションに追加します。クロールされたデータが取得されているかどうかを判断する鍵は、データを素早く見つけて比較することであり、URL の正規化認識も含まれます。たとえば、URL に無効なパラメータが多数含まれていても、実際には同じページである場合は、同じ URL として扱われます。 6. ダークウェブデータの取得 インターネット上には現在、検索エンジンが取得できない大量のデータがあり、これらはダークウェブデータと呼ばれています。一方では、ネットワークデータベースに多くのウェブサイトの大量のデータが存在し、スパイダーがウェブページをクロールして完全なコンテンツを取得することが困難です。他方では、ネットワーク環境、ウェブサイト自体が標準を満たしていない、孤立などの問題により、検索エンジンがクロールできない場合があります。現在、ダークウェブデータを取得するための主なアイデアは、依然として「Baidu Webmaster Platform」、「Baidu Open Platform」などのオープンプラットフォームを通じてデータを送信することです。 7. クロールアンチチート クローリングのプロセス中に、スパイダーはいわゆるクローリング ブラック ホールに遭遇したり、低品質のページが大量に存在するという問題に直面したりすることがよくあります。このため、クローリング システムには完全なクローリング不正防止システムを設計する必要があります。たとえば、URL の特徴の分析、ページのサイズとコンテンツの分析、サイト規模の対応するクロール規模の分析などです。 原題: Baidu Webmaster Platform Lee: スパイダークローリングプロセスにおける戦略について語る キーワード: Baidu、ウェブマスター、プラットフォーム、リー、スパイダー、クロール、プロセス、戦略、ウェブサイト、ウェブサイトのプロモーション、収益化 |
>>: 言葉選びは妻選びと同じ。ウェブサイトのキーワードポジショニングのポイントまとめ
ここ数日の一連のニュースは読むのが耐えられないほどだ。ネットユーザーからの非難とメディアの追及が次々...
Pacificrack の最新のプロモーションメールには、Windows シリーズの VPS が 6...
36Krは、「コヒーレント量子コンピューティング」に焦点を当てた中国初のスタートアップ企業であるBo...
製品を市場に投入し、初期の認知度を得た後、どのようにユーザーベースをさらに拡大できるでしょうか?顧客...
QCon San Francisco で、Neha Narkhede 氏は「ETL は終わり、リアル...
中国新聞社ITチャンネルによる地図中国新聞社、7月17日(ITチャンネル左盛丹) 課金するべきか、し...
Googleの補足資料問題は、今年さらに注目を集めたSEO問題です。以前に、どの問題が補足資料になる...
メガレイヤーはどうですか?メガレイヤーUSAはどうですか?米国サンノゼの標準ネットワーク回線を備えた...
劉愛林人人代(正式名称「人人代ビジネスコンサルタント(北京)有限公司」)は、10回連続で財務計画を発...
2012年1月11日、今朝、タオバオモールが「Tmall」に名前を変更するというニュースが発表される...
さまざまなモバイル デバイスの急速な発展に伴い、多くの問題や課題にも直面しています。たとえば、ソフト...
検索エンジンでキーワードの順位が変わるのはよくあることで、ウェブマスターなら誰でもよく目にするもので...
導入大まかに見ると、多くのデータおよび分析ソリューションは長年にわたって同じ方法で構築されてきました...
最近、一部のウェブマスターは、理由もなく自分のウェブサイトが追い出されたり、降格されたりすることにい...
A5ウェブマスターネットワークは7月13日、新浪が昨日、ソーシャル質疑応答ウェブサイト「微神」を正式...