Web ページ重複排除の原理は何ですか?

Web ページ重複排除の原理は何ですか?

注: この知識は、Pizirui 著の「SEO 徹底分析」という本から得たものです。このような優れた SEO 知識を書いてくださっている著者に心より感謝いたします。

[はじめに] 今日のインターネットの発達により、同じ情報が複数のウェブサイトに掲載され、ほとんどのメディアウェブサイトで同じニュースが報道され、小規模なウェブマスターや SEO 担当者のたゆまぬオンライン収集と相まって、インターネット上には大量の重複情報が存在しています。しかし、ユーザーがキーワードを検索する場合、検索エンジンはユーザーに同じ検索結果を提示したくはありません。これらの重複した Web ページをクロールすることは、ある程度、検索エンジン自身のリソースの無駄遣いとなるため、重複コンテンツを含む Web サイトを削除することが、検索エンジンが直面する大きな問題となっています。

一般的な検索エンジン アーキテクチャでは、Web ページの重複排除は通常、スパイダー クローリング部分に存在します。検索エンジン アーキテクチャ全体で「重複排除」ステップが早く実装されるほど、後続の処理システムでより多くのリソースを節約できます。検索エンジンは、一般的にクロールした重複ページを分類します。例えば、サイトに重複ページが大量に含まれているかどうか、サイトが他のサイトのコンテンツを完全に収集しているかどうかなどを判断し、今後サイトをクロールするかどうか、またはクロールを直接ブロックするかどうかを決定します。

重複排除作業は、通常、単語の分割後、インデックス作成前に実行されます (単語の分割前に実行される場合もあります)。検索エンジンは、ページ上で分割されたキーワードからいくつかの代表的なキーワードを抽出し、これらのキーワードの「指紋」を計算します。すべてのウェブページにはこのような特徴的なフィンガープリントがあり、新しくクロールされたウェブページのキーワードフィンガープリントがインデックスされたウェブページのキーワードフィンガープリントと重複すると、検索エンジンによって新しいウェブページが重複コンテンツとみなされ、インデックスが破棄される可能性があります。

実際の作業では、検索エンジンは単語分割ステップで区切られた意味のあるキーワードを使用するだけでなく、連続カットを使用してキーワードを抽出し、フィンガープリント計算を実行します。連続カットによりキーワードを抽出し、フィンガープリントの計算を行います。連続カットとは、単語を一つずつ後ろに移動しながらカットすることです。例えば、「百度が売買リンクの取り締まりを開始」は、「百度が開始」、「戦いを開始」、「取り締まりを開始」、「売買を取り締まる」、「売買を取り締まる」、「売買チェーン」、「販売リンク」にカットされます。次に、これらの単語からいくつかのキーワードが抽出され、フィンガープリントの計算と重複コンテンツの比較が行われます。これは、検索エンジンが重複した Web ページを識別するために使用する基本的なアルゴリズムにすぎません。重複した Web ページを処理するためのアルゴリズムは他にも多数あります。

そのため、インターネットで普及している疑似オリジナルツールのほとんどは、検索エンジンを騙すことができないか、コンテンツを理解不能にして誰も読めないようにします。そのため、理論上は、通常の疑似オリジナルツールを使用しても、通常の検索エンジンへの登録やランキングにはつながりません。しかし、Baidu はすべての重複ページを直接放棄してインデックスしないのではなく、重複 Web ページが配置されている Web サイトの重みに基づいて、インデックスの基準を適切に緩和します。これにより、一部の不正行為者は Web サイトの重みの高さを利用し、他のサイトから大量のコンテンツを集めて検索トラフィックを獲得する機会を得ています。しかし、2012年6月以降、百度検索はアルゴリズムを数回アップグレードし、重複情報やジャンクページの収集に対する取り締まりを複数回実施してきました。したがって、ウェブサイトのコンテンツに直面するとき、SEOはもはや擬似的な独創性の観点からそれを構築するのではなく、ユーザーにとって有用であるかどうかの観点から構築する必要があります。後者のコンテンツは必ずしもすべて独創的である必要はありませんが、一般的にウェブサイトの重量に大きな問題がなければ、健全に発展します。独創性の問題に関しては、この本の第 12 章で詳しく説明します。

さらに、Web ページの重複を排除する必要があるのは検索エンジンだけではありません。自分の Web サイト上のページも重複を排除する必要があります。例えば、分類情報やB2BプラットフォームなどのUGCウェブサイトを規制しない場合、ユーザーが投稿した情報は必然的に大量に繰り返されることになります。これはSEOの面でパフォーマンスが低下するだけでなく、サイト上のユーザーエクスペリエンスも大幅に低下します。たとえば、SEO 担当者がトラフィック プロダクトを設計する場合、通常は「集約」に基づいてインデックス ページ、特集ページ、またはディレクトリ ページを使用します。「集約」にはコア ワードが必要です。フィルタリングを行わないと、大量のコア ワードによって拡張されたページには多数の繰り返しが含まれる可能性があり、プロダクトのパフォーマンスが低下し、検索エンジンによって降格されることもあります。

「重複排除」アルゴリズムの一般的な原理は、一般的に上記のとおりです。興味のある方は、I-Match、Shingle、SimHash、コサイン重複排除の具体的なアルゴリズムについて学ぶことができます。 「Web ページの重複排除」作業を実行する前に、検索エンジンはまず Web ページを分析する必要があります。コンテンツ周辺の「ノイズ」は重複排除の結果に多少影響を及ぼします。この部分の作業を行うときは、コンテンツ部分のみを操作する必要があります。これは比較的簡単で、高品質の「SEO 製品」の作成に効果的に役立ちます。 SEO 担当者は、実装の原則を理解するだけで十分です。製品内の特定のアプリケーションを実装するには、技術者が必要です。さらに、効率やリソース要件などの問題も関係しており、「重複排除」作業も実際の状況に応じて複数のリンクで実行できます(コアワードのセグメンテーションなど)。SEO担当者が原理を少し理解し、技術担当者にいくつかの方向性を提案できれば、非常に良いでしょう(技術担当者は万能ではなく、慣れていない分野や得意ではない分野があり、特定のタイミングで他の人にアイデアを提供する必要もあります)。 SEO 担当者がこれらの側面について技術担当者と綿密な意見交換を行うことができれば、技術担当者も SEO を違った目で見るようになり、少なくとも「SEO 担当者はタイトル、リンク、テキストなどの「退屈な」要件を変更することしかできない」とは思わなくなるでしょう。

要約: Pizirui 氏の素晴らしい本に改めて感謝します。Nizi 氏は SEO の考え方における新しい知識、重複排除、フィンガープリントの原則を発見しました。兄弟姉妹がこの本を読んでくれることを願っています。今日はその一部を皆さんにシェアしたいと思います。今後も、良い知識のポイントが見つかったら、皆さんにシェアし続けます。

過去に再処理されたウェブサイトを参照できます:http://www.91suicediao.com/


元のタイトル: Web ページ重複排除の原理は何ですか?

キーワード:

<<:  ウェブマスター: サイトの起動が遅い問題を解決する方法

>>:  Baidu 検索が変わったことと変わっていないこと: 最適化担当者が知っておくべきこと

推薦する

キーワードの競争の激しさを判断するためのいくつかの簡単な方法について簡単に説明します。

キーワードの選択は最適化において非常に重要な部分です。正しいキーワードは最適化における回り道を避ける...

dogyun: 特別価格の香港 VPS、168 元/年、1G メモリ/1 コア/10g SSD/500g トラフィック/20M 帯域幅

Dogyun は現在、香港データセンターの VPS で大々的なプロモーションを行っており、商品の大量...

嘔吐血共有外部リンク知識マニュアル

外部リンクの構築は非常に重要なタスクです。ウェブサイトの最適化のプロセスでは、ウェブサイトのコンテン...

v.psはどうですか?サンノゼクラウドサーバ評価、CN2 GIA+CUII(2)+CMIライン

v.psはどうですか? v.ps サンノゼはどうですか?皆様のフィードバックによると、China T...

クラウド コンピューティングの 3A 大手がローコード開発トラックに集結し、200 億ドルを超える市場を競い合う?

AWS がローコード開発サービス Amazon Honeycode を正式に開始したことで、3A ク...

3年後のモバイルインターネットに関する8つの予測

2013 年 11 月 5 日、OPPO のモバイル インターネットへの変革に関するセミナーで、主催...

ブラックジューン後のウェブサイト最適化はどこで行うべきでしょうか?

ブラックジューン後、ウェブサイトの最適化はどこへ向かうべきでしょうか?この疑問に悩む人は多いのではな...

raksmart - 香港で30%オフ/米国CN2で40%オフ/新しい100G高防御/10Gbps帯域幅

ベテランホスティングプロバイダー raksmart の 5 月のプロモーションが早くも開始されました...

Amazon Web Services の専門家の視点: 最新アプリケーションの証明可能なセキュリティ - 最高水準のクラウド セキュリティを構築する唯一の方法

セキュリティはすべての企業にとって最優先事項です。セキュリティの強化、包括的なコンプライアンス管理の...

SEOを多角的な視点から見ることによってのみ、ウェブサイトの最適化を効果的に実施することができる。

SEO は現在、急速な発展の時代を迎えています。大企業から草の根レベルのウェブマスターまで、あらゆる...

NFVは飛躍的な成長を遂げようとしている

IT テクノロジーにおいて、ネットワーク ノード機能全体の仮想化に対する要件が高まり続けるにつれて、...

裁判所は、アンインストールできないiPhoneプリインストールソフトウェアに関するユーザーの訴訟を棄却

広東省高級人民法院の公式微博アカウントによると、福田裁判所は最近、「深センのiPhoneユーザーがA...

クラウドストレージ緊急訓練システムの構築とシナリオ設計

この記事では、クラウド ネイティブとエンタープライズ クラウド アーキテクチャの観点から、クラウド ...

NIKE の新年の大ヒット商品が到着しました。今回は旧正月も負けません!

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス今年はまだ始まったばかり...

WeChatは限界に達したのか?

WeChatは最近、議論を巻き起こす2つの動きを見せた。 1つ目は、WeChat Circlesが廃...