オリジナルコンテンツを判断する検索エンジンの盲点

百度は8月10日、ウェブマスタークリニックのオープンデーを開催した。多くのウェブマスターは、百度が自分のウェブサイトのオリジナルコンテンツを転載と判定し、転載されたウェブサイトをオリジナルと判定しているという問題を指摘した。李氏はまた、ウェブサイト上のオリジナルコンテンツを識別するアルゴリズムは近い将来改善されるだろうと述べた。詳細については、「8 月 10 日の Baidu Webmaster Clinic オープンデーの質問集」をご覧ください。

そして8月11日、Googleは検索結果に大幅な調整を加え、著作権を侵害しているウェブサイトのランキングを下げると発表しました。Googleは著作権者から大量の著作権侵害通知を受け取ると、Google検索結果でそのウェブサイトのランキングを下げることになります。インターネットの最も重要なトラフィックの入り口として、検索エンジンはウェブサイトとユーザーを結びつける役割を担っています。ユーザー、検索エンジン、ウェブサイトは相互に利益のある共生システムとなっています。しかし、検索エンジンにとって難しいオリジナルコンテンツの判断は、ユーザーやウェブサイトにどのような影響を与えるのでしょうか。

ユーザー記事:

ユーザーは長い間、検索エンジンを通じて必要な情報を見つけることに慣れてきました。検索エンジンはユーザーのためのツールであり、ほとんどのユーザーは情報のソースを気にすることはほとんどなく、情報自体が自分のニーズを満たしているかどうかだけを気にします。つまり、大多数のユーザーは、情報の作成者やその情報がどの Web サイトから提供されているかを気にしません。ユーザーが検索エンジンを通じてSinaやSohuなどの大手ウェブサイトにアクセスすると、情報に対する信頼が目に見えない形で強化されます。たとえその情報が大規模なウェブサイトのオリジナルでなかったとしても。

検索エンジン:

検索エンジンサービスの目的は Web サイトではなくユーザーです。検索エンジンの主な役割は、ユーザーに価値のある情報を提供することです。一般ユーザーは情報の独創性に関心がありません。しかし、検索結果の公平性とネットワーク環境全体の秩序を維持するために、検索エンジンは複雑なネットワーク内で独創性と転載を判断する必要があります。検索エンジンは、大量の高品質のオリジナルコンテンツを生成してより多くのトラフィックをもたらすWebサイトに高い重み付けとより良いランキングを与え、大量のコンテンツを転載および盗用するWebサイトのランクを下げます。しかし、その前提となるのは、検索エンジンがオリジナルコンテンツと転載コンテンツを正確に識別できることです。Baiduだけでなく、Googleでさえも、これを満足のいくレベルで実現できていません。

技術的な背景はさておき、常識的に考えれば、まずは時間の問題が頭に浮かびます。転載されたコンテンツよりも、オリジナルのコンテンツの方が先に登場するのは間違いありません。記事1は元々ウェブサイトAによって作成されたと仮定します。それがSinaによって転載された後、他の主要なウェブサイトもSinaから転載し、一度に大量の転載がインターネット上に現れました。統計によると、検索エンジンは現在、インターネット全体のデータの約30％しか見つけて取り込んでおらず、これはすでに天文学的な数字です。限られたリソースでは、検索エンジンはインターネット全体の情報をリアルタイムで監視することはできません。そのため、Sinaは記事1の原著者になりました。

第二に、記事の著作権情報に基づいて、ますます多くの記事に著作権表示が付けられるようになります。多くの悪質な転載者はこの情報を削除しますが、この情報を残す人は常に存在します。スパイダーは、記事の著作権情報に基づいて、オリジナル記事と転載記事を識別します。理論的には可能です。実際、多くの悪質な転載では、元の著作権情報を削除するだけでなく、独自の著作権を追加し、同じ記事に複数の元のソースがあるという現象を引き起こします。

さらに、検索エンジンの作業には、クロール、単語の分割、ノイズ除去、キーワードの抽出が含まれます。記事の内容とあまり関係のない著作権情報は、ノイズ除去の過程で削除されることがよくあります。検索エンジンがアルゴリズムを調整し、著作権情報を保持したとしても、上記のような不正複製のジレンマは避けられません。

Webサイト：

ウェブサイトは、検索エンジンを満足させるために大量の高品質な情報を提供するだけでなく、ユーザーを維持するために優れたユーザーエクスペリエンスを提供する必要があります。しかし、ウェブサイトは、いじめられている若い妻のように、検索エンジンからいじめられることがよくあります。多くのウェブマスターは検索エンジンについてよく不満を言いますが、検索エンジンの顧客はウェブサイトではなくユーザーであり、検索エンジンにはウェブサイトにトラフィックを提供する義務がないという点を見落としています。

しかし、検索エンジンの不公平性と技術的欠陥により、大規模なウェブサイトが強くなり、小規模なウェブサイトが弱くなるという恐ろしいマシュー効果が生じています。大規模なウェブサイトはランダムに盗用しますが、それでも高いランキングと一定のトラフィックを維持しています。小規模なウェブサイトは制作に一生懸命取り組んでいますが、結局はランキングも訪問者も少なく、他人のためのツールとしてしか機能しません。

検索エンジンのユーザーは情報生産者を気にしていないように見えますが、これは検索エンジンの上流顧客であるウェブサイト、そしてインターネット環境全体の生死に関係しており、検索エンジンが克服しなければならない盲点でもあります。

原題: オリジナルコンテンツを判断する検索エンジンの盲点

キーワード: オリジナルコンテンツ、検索エンジン認識、ウェブマスター、ウェブサイト、ウェブサイトプロモーション、収益化

<<: SEOを行う上でユーザーエクスペリエンスは重要です

>>: ランキング間の密接な関係を合理的に見る方法