インデックスページリンク補完メカニズムの手法 1. 背景 スパイダーは、検索エンジンのデータ フローの最上流に位置します。インターネットからローカルにリソースを収集し、その後の検索に提供する役割を担っています。検索エンジンの主要なデータ ソースの 1 つです。スパイダー システムの目標は、インターネット上のすべての価値ある Web ページを発見してクロールすることです。この目標を達成するために、まず価値ある Web ページへのリンクを発見する必要があります。現在、スパイダーにはさまざまなリンク発見メカニズムがあり、リソース リンクをできるだけ迅速かつ完全に発見できます。この記事では、主に特定のインデックス ページのリンク補完メカニズムの 1 つについて説明し、この特定の種類のインデックス ページの包含効果を最適化するための推奨処理仕様を示します。 現在、ほとんどのインターネット Web サイトでは、Web サイトのリソースがインデックス ページとフリップ ページの形式で整理されています。新しいリソースが追加されると、古いリソースはフリップ ページ シリーズの最後尾に移動されます。 次の図に示すように: 図1 http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml 図 2 は、18 時間後のページめくりシリーズの 4 ページ目の内容を示しています。この期間中に 3 ページ以上のリソースが追加されました。図 1 の赤いマトリックスで囲まれたリソースは、18 時間後に 4 ページの赤い四角に整然と移動されました。 図2 ページ4 18時間後 http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml スパイダーにとって、この特定の種類のインデックス ページは、リソース リンクを発見するための効果的なチャネルです。ただし、スパイダーはこれらの Web ページを定期的にチェックして、新しく追加されたリソース リンクを取得するため、検査サイクルはリソース リンクのリリース サイクルとは必然的に異なります (スパイダーは Web ページのリリース サイクルを検出し、適切な頻度で Web ページをチェックしようとします)。サイクルが異なると、リソース リンクがページめくりシーケンスに押し込まれる可能性が高くなるため、スパイダーはこの特別な種類のページめくりシリーズを完了して、含まれているリソースが完全であることを確認する必要があります。 2. 主なアイデア この記事では、主に、リソースがリリース時間順に並べられている Web ページについて説明します。つまり、新しくリリースされたリソースがページの最初のページ (または最後のページ) に配置され、古いリソースが順序よく後ろ (または前) に移動されてインデックス ページが完成します。主なアイデアは、ページめくりの一連の Web ページ全体を全体として見なし、それらのクロール状況を総合的に判断し、Web ページがクロールされるたびに見つかったリソース リンクを記録し、次に今回見つかったリソース リンクを履歴で見つかったリソース リンクと比較することです。交差点がある場合は、このクロールですべての新しいリソースが見つかったことを意味します。そうでない場合は、このクロールですべての新しいリソースが見つからなかったことを意味し、すべての新しいリソースを見つけるには、次のページまたは次の数ページをクロールし続ける必要があります。 2.1 リソースリンクは時間順に並べられていますか? このようなページの場合、リソースがリリース時間順に配置されているかどうかを判断することが必須条件です。では、リソースがリリース時間順に配置されているかどうかをどのように判断すればよいのでしょうか。上の図 1 に示すように、一部のページでは、各リソース リンクの後に、対応するリリース時間が続きます。リソース リンクに対応する時間セットによって、時間セットが大きい順か小さい順かが判断されます。そうであれば、Web ページ内のリソースはリリース時間順に配置されていることを意味し、その逆も同様です。図 1 では、上から下に向かってリソースに対応する時間がどんどん小さくなっており、つまり、リソースはリリース時間順に並べられています。 下の図 3 に示すように、Web ページのコンテンツには、売上高による並べ替え、価格による並べ替え、コメント数による並べ替え、掲載時間による並べ替えなど、複数の並べ替え方法がある別のタイプの Web ページもあります。現在のソート方法を識別して抽出することで、現在のソート方法が時間順にソートされているかどうかを判断します。そうである場合、Web ページ内のリソースはリリース時間順に並べられており、その逆も同様です。図 3 のソート方法は、リスト時間によるソートであり、これは時間ソート方法であるため、この Web ページで公開されているリソースは公開時間順に並べられています。 また、リソースリンクを取得した後に抽出したリリース時間をもとに総合的に判断します。 図3 複数のソート方法を持つインデックスページ 2.2 完了メカニズム 新しくリリースされたすべてのリソースが、リリース時間に従って順番にインデックス ページ シリーズに並べられたリソース リンクに含まれていることを確認するにはどうすればよいでしょうか。前述のように、18 時間後、図 1 のリソース リンクは整然とページ 4 に移動されました。このように、この期間中にページ 2、3、4 にインデックスされた新しいリソース リンクが追加されました。したがって、スパイダーはこれらの新しいリソースを完全に含める必要があります。 まず、スパイダーが 18 時間後に最初のページをクロールすると、新しく発見されたリソース リンク セットと、18 時間前の最初のインデックス ページの最後のスケジューリングで記録されたリソース リンク セットを比較します。2 つのスケジューリングで発見されたリソース リンクには交差がないため、見逃されたリンクがある可能性があることがわかります。次に、ページ 2 のスケジュールを開始し続ける必要があります。ページ 2 で見つかったリソース リンク セットはまだ交差していないため、見逃されたリンクがまだある可能性があります。ページ 3 と 4 のスケジュールを開始し続けます。最後に、図 2 に示すように、赤いボックス内のリンクは、最後のインデックス ページ スケジュール レコードに記録されたリソース リンクと交差しています。したがって、この期間中に追加された新しいリソースが完了したと結論付けることができ、これによりページめくりシリーズのスケジュールが終了し、ページめくりシリーズ内のすべてのリンクが完了していることが保証され、検索製品の包含効果が向上します。 2.3 ページめくりバーとそれに対応するリンクシーケンスブロックの識別 上記の効果を実現するためには、ページめくりシリーズの並び替え方法が時間順であるかどうかを識別することに加え、インデックスページ内のページめくりバーとそれに対応するリンクブロックを識別することも必要です。 ページめくりバーを認識しないと、スパイダーシステムはページめくりシーケンス内のすべてのリンクをバインドできず、それらの状態を全体として考慮できません。そうすると、スケジュールクロールの結果はランダムになり、完了効果は保証されません。現在、Webページ内の一連のページめくり機能を通じて、機械学習の方法を使用して、Webページ内のページめくりブロックとページめくりの深さ、および前のページと次のページのリンクを識別し、上記の完了メカニズムに基礎データを提供します。 一方、ページめくりバーが識別されたとしても、対応するリンクブロックが識別されなければ、上記の完了メカニズムは機能しません。これは、上記のメカニズムが終了条件を決定するために発見されたリンクの集合を比較する必要があるためです。したがって、ページめくり終了条件を提供するには、ページめくりバーに対応するリンクブロックを識別することも必要です。 特殊なケースでは、Web ページに複数のページめくりバーが含まれることがあります。この場合は、ページめくりバーとリンク ブロックを対応付けることがさらに必要になります。 3. 推奨される方法と基準 現在の百度スパイダーシステムは、ウェブページの種類、ウェブページ内のページめくりバーの位置、ページめくりバーに対応するインデックスリスト、リストが時間順に並べられているかどうかなどについて、対応する判断を行い、実際の状況に応じて処理します。ただし、機械の自動判断方法では、結局のところ100%の認識精度を達成することはできません。そのため、ウェブマスターがページにBaidu推奨のタグをいくつか追加して、対応する機能領域をマークできれば、認識精度が大幅に向上し、スパイダーシステムがウェブサイトのリソースを発見する適時性が向上し、ウェブサイトの包含効果が向上します。 スパイダーリンク補完は現在、Webページのページめくりバーと、ページめくりバーに対応するインデックスリンクリストのブロックに重点を置いているため、ブロック要素のクラス属性(div、ulなど)を使用して、Baiduスパイダーが識別して使用できる対応する機能をマークできます。マークには次の属性を使用することをお勧めします。 表1 サポートされているCLASS拡張属性 たとえば、Baidu ニュース ページは次のように設定できます。 ページめくりバーに対応するブロック要素pには、クラス属性Baidu_paging_indicatorを設定することができ、ページめくりバーに対応するメインリンクのブロック要素divには、Baidu_paging_content_indicator Orderby_posttimeを設定できます。これにより、ページめくりバーと対応するリンクブロックが互いに対応し、Baiduに公開時間に基づいて並べ替えられていることを通知し、スパイダーシステムのクローリング動作を最適化し、サイトの包含効果を向上させます。 IV. 結論 上記のリンク発見方法に加えて、Baidu のクロール システムには、価値のある Web サイトのカバレッジを確保するための他の多くの手段があります。上記の方法は、特定のインデックス ページ タイプに固有の方法にすぎず、インターネット ウェブマスターはこれを参照として使用できます。ウェブマスターは、スパイダーのウェブマスター プラットフォームを使用して、サイトマップ プロトコルを介してリンクを直接プッシュするなど、より高速で優れた Web サイト インクルード結果を得る方法を学ぶこともできます。ウェブマスタープラットフォームのアドレス: http://zhanzhang.baidu.com/、最近改訂され、新しい機能が提供されています。 原題: Baidu 検索研究開発部: インデックスページリンク補完メカニズムの方法 キーワード: Baidu、検索、研究開発部門、インデックス ページ、リンク、完了マシン、方法、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化 |
12月16日〜17日、CNCF、NetEase Cloud Computing、VMware、Pin...
Tencent Cloud Serverless Cloud Function SCF は、120G...
多くのウェブマスターは、Baidu の製品の重みが非常に高いことを知っています。Baidu を使用し...
本日、Cloud Native Computing Foundation (CNCF) は、TiKV...
2008 年は、母子向けウェブサイトが急速に発展した黄金期でした。一方では、伝統的な母子向け製品チェ...
ビデオ サーバー、ゲーム サーバー、レンダリング GPU サーバーなどはすべて、高周波数の CPU ...
Shark Host のメール プロモーションでは、シカゴ データ センターの特別価格サーバーについ...
新年が近づいていますが、検索エンジンも新年を祝うのでしょうか? なぜそう言うのでしょうか? 私の Q...
Kubernetes をベースとした CI/CD というと、Jenkins、Gitlab CI、Dr...
Hostus は 2009 年に設立され、3 名で構成されています。サーバーは、Intel E3-1...
クラウド コンピューティングの将来は明るいですが、急速に変化しています。ここでは、クラウド コンピュ...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますどのような...
サードパーティ決済事業者間のライセンス獲得競争は徐々に沈静化してきているようだ。ライセンス取得の有無...
百度独自の製品の重みが非常に高いことは誰もが知っています。百度で特定のキーワードを検索すると、百度の...
最近、Baidu のアルゴリズムが頻繁に調整および更新されたため、多くの Web サイトのランキング...