Baidu 検索研究開発部: インデックスページリンク補完メカニズムの手法

インデックスページリンク補完メカニズムの手法

1. 背景

スパイダーは、検索エンジンのデータフローの最上流に位置します。インターネットからローカルにリソースを収集し、その後の検索に提供する役割を担っています。検索エンジンの主要なデータソースの 1 つです。スパイダーシステムの目標は、インターネット上のすべての価値ある Web ページを発見してクロールすることです。この目標を達成するために、まず価値ある Web ページへのリンクを発見する必要があります。現在、スパイダーにはさまざまなリンク発見メカニズムがあり、リソースリンクをできるだけ迅速かつ完全に発見できます。この記事では、主に特定のインデックスページのリンク補完メカニズムの 1 つについて説明し、この特定の種類のインデックスページの包含効果を最適化するための推奨処理仕様を示します。

現在、ほとんどのインターネット Web サイトでは、Web サイトのリソースがインデックスページとフリップページの形式で整理されています。新しいリソースが追加されると、古いリソースはフリップページシリーズの最後尾に移動されます。

次の図に示すように:

図1

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

図 2 は、18 時間後のページめくりシリーズの 4 ページ目の内容を示しています。この期間中に 3 ページ以上のリソースが追加されました。図 1 の赤いマトリックスで囲まれたリソースは、18 時間後に 4 ページの赤い四角に整然と移動されました。

図2 ページ4 18時間後

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

スパイダーにとって、この特定の種類のインデックスページは、リソースリンクを発見するための効果的なチャネルです。ただし、スパイダーはこれらの Web ページを定期的にチェックして、新しく追加されたリソースリンクを取得するため、検査サイクルはリソースリンクのリリースサイクルとは必然的に異なります (スパイダーは Web ページのリリースサイクルを検出し、適切な頻度で Web ページをチェックしようとします)。サイクルが異なると、リソースリンクがページめくりシーケンスに押し込まれる可能性が高くなるため、スパイダーはこの特別な種類のページめくりシリーズを完了して、含まれているリソースが完全であることを確認する必要があります。

2. 主なアイデア

この記事では、主に、リソースがリリース時間順に並べられている Web ページについて説明します。つまり、新しくリリースされたリソースがページの最初のページ (または最後のページ) に配置され、古いリソースが順序よく後ろ (または前) に移動されてインデックスページが完成します。主なアイデアは、ページめくりの一連の Web ページ全体を全体として見なし、それらのクロール状況を総合的に判断し、Web ページがクロールされるたびに見つかったリソースリンクを記録し、次に今回見つかったリソースリンクを履歴で見つかったリソースリンクと比較することです。交差点がある場合は、このクロールですべての新しいリソースが見つかったことを意味します。そうでない場合は、このクロールですべての新しいリソースが見つからなかったことを意味し、すべての新しいリソースを見つけるには、次のページまたは次の数ページをクロールし続ける必要があります。

2.1 リソースリンクは時間順に並べられていますか?

このようなページの場合、リソースがリリース時間順に配置されているかどうかを判断することが必須条件です。では、リソースがリリース時間順に配置されているかどうかをどのように判断すればよいのでしょうか。上の図 1 に示すように、一部のページでは、各リソースリンクの後に、対応するリリース時間が続きます。リソースリンクに対応する時間セットによって、時間セットが大きい順か小さい順かが判断されます。そうであれば、Web ページ内のリソースはリリース時間順に配置されていることを意味し、その逆も同様です。図 1 では、上から下に向かってリソースに対応する時間がどんどん小さくなっており、つまり、リソースはリリース時間順に並べられています。

下の図 3 に示すように、Web ページのコンテンツには、売上高による並べ替え、価格による並べ替え、コメント数による並べ替え、掲載時間による並べ替えなど、複数の並べ替え方法がある別のタイプの Web ページもあります。現在のソート方法を識別して抽出することで、現在のソート方法が時間順にソートされているかどうかを判断します。そうである場合、Web ページ内のリソースはリリース時間順に並べられており、その逆も同様です。図 3 のソート方法は、リスト時間によるソートであり、これは時間ソート方法であるため、この Web ページで公開されているリソースは公開時間順に並べられています。

また、リソースリンクを取得した後に抽出したリリース時間をもとに総合的に判断します。

図3 複数のソート方法を持つインデックスページ

2.2 完了メカニズム

新しくリリースされたすべてのリソースが、リリース時間に従って順番にインデックスページシリーズに並べられたリソースリンクに含まれていることを確認するにはどうすればよいでしょうか。前述のように、18 時間後、図 1 のリソースリンクは整然とページ 4 に移動されました。このように、この期間中にページ 2、3、4 にインデックスされた新しいリソースリンクが追加されました。したがって、スパイダーはこれらの新しいリソースを完全に含める必要があります。

まず、スパイダーが 18 時間後に最初のページをクロールすると、新しく発見されたリソースリンクセットと、18 時間前の最初のインデックスページの最後のスケジューリングで記録されたリソースリンクセットを比較します。2 つのスケジューリングで発見されたリソースリンクには交差がないため、見逃されたリンクがある可能性があることがわかります。次に、ページ 2 のスケジュールを開始し続ける必要があります。ページ 2 で見つかったリソースリンクセットはまだ交差していないため、見逃されたリンクがまだある可能性があります。ページ 3 と 4 のスケジュールを開始し続けます。最後に、図 2 に示すように、赤いボックス内のリンクは、最後のインデックスページスケジュールレコードに記録されたリソースリンクと交差しています。したがって、この期間中に追加された新しいリソースが完了したと結論付けることができ、これによりページめくりシリーズのスケジュールが終了し、ページめくりシリーズ内のすべてのリンクが完了していることが保証され、検索製品の包含効果が向上します。

2.3 ページめくりバーとそれに対応するリンクシーケンスブロックの識別

上記の効果を実現するためには、ページめくりシリーズの並び替え方法が時間順であるかどうかを識別することに加え、インデックスページ内のページめくりバーとそれに対応するリンクブロックを識別することも必要です。

ページめくりバーを認識しないと、スパイダーシステムはページめくりシーケンス内のすべてのリンクをバインドできず、それらの状態を全体として考慮できません。そうすると、スケジュールクロールの結果はランダムになり、完了効果は保証されません。現在、Webページ内の一連のページめくり機能を通じて、機械学習の方法を使用して、Webページ内のページめくりブロックとページめくりの深さ、および前のページと次のページのリンクを識別し、上記の完了メカニズムに基礎データを提供します。

一方、ページめくりバーが識別されたとしても、対応するリンクブロックが識別されなければ、上記の完了メカニズムは機能しません。これは、上記のメカニズムが終了条件を決定するために発見されたリンクの集合を比較する必要があるためです。したがって、ページめくり終了条件を提供するには、ページめくりバーに対応するリンクブロックを識別することも必要です。

特殊なケースでは、Web ページに複数のページめくりバーが含まれることがあります。この場合は、ページめくりバーとリンクブロックを対応付けることがさらに必要になります。

3. 推奨される方法と基準

現在の百度スパイダーシステムは、ウェブページの種類、ウェブページ内のページめくりバーの位置、ページめくりバーに対応するインデックスリスト、リストが時間順に並べられているかどうかなどについて、対応する判断を行い、実際の状況に応じて処理します。ただし、機械の自動判断方法では、結局のところ100％の認識精度を達成することはできません。そのため、ウェブマスターがページにBaidu推奨のタグをいくつか追加して、対応する機能領域をマークできれば、認識精度が大幅に向上し、スパイダーシステムがウェブサイトのリソースを発見する適時性が向上し、ウェブサイトの包含効果が向上します。

スパイダーリンク補完は現在、Webページのページめくりバーと、ページめくりバーに対応するインデックスリンクリストのブロックに重点を置いているため、ブロック要素のクラス属性（div、ulなど）を使用して、Baiduスパイダーが識別して使用できる対応する機能をマークできます。マークには次の属性を使用することをお勧めします。

表1 サポートされているCLASS拡張属性

たとえば、Baidu ニュースページは次のように設定できます。

ページめくりバーに対応するブロック要素pには、クラス属性Baidu_paging_indicatorを設定することができ、ページめくりバーに対応するメインリンクのブロック要素divには、Baidu_paging_content_indicator Orderby_posttimeを設定できます。これにより、ページめくりバーと対応するリンクブロックが互いに対応し、Baiduに公開時間に基づいて並べ替えられていることを通知し、スパイダーシステムのクローリング動作を最適化し、サイトの包含効果を向上させます。

IV. 結論

上記のリンク発見方法に加えて、Baidu のクロールシステムには、価値のある Web サイトのカバレッジを確保するための他の多くの手段があります。上記の方法は、特定のインデックスページタイプに固有の方法にすぎず、インターネットウェブマスターはこれを参照として使用できます。ウェブマスターは、スパイダーのウェブマスタープラットフォームを使用して、サイトマッププロトコルを介してリンクを直接プッシュするなど、より高速で優れた Web サイトインクルード結果を得る方法を学ぶこともできます。ウェブマスタープラットフォームのアドレス: http://zhanzhang.baidu.com/、最近改訂され、新しい機能が提供されています。

原題: Baidu 検索研究開発部: インデックスページリンク補完メカニズムの方法

キーワード: Baidu、検索、研究開発部門、インデックスページ、リンク、完了マシン、方法、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<: 効果的なSNSプロモーション戦略

>>: 初心者同士が友情リンクを交換するジョーク