検索エンジンによるキーワードスタッフィングの認識

検索エンジンと検索エンジン最適化 (SEO) は、常に矛盾した関係にあります。適切な最適化は、検索エンジンが Web サイトのコンテンツを識別し、Web サイトの宣伝に役立ちます。しかし、良い面と悪い面があります。SEO 担当者の中には、含まれるページ数やページランキングを上げるために、さまざまな欺瞞的な手段を使って検索エンジンを欺く人もいます。

初期の SPAM 不正行為の 1 つは、ソフトウェアを使用して中国語の語彙から単語をつなぎ合わせて記事を作成することでした。このような記事には実用的な意味はなく、検索エンジンでしか見ることができませんでした。では、検索エンジンはどのようにしてそのような記事を識別するのでしょうか?

すべての検索エンジンには、Web ページの品質を監視する部門があることは周知の事実です。Baidu のような手動処理を伴う検索エンジンの場合、ユーザーがそのような Web サイトを見つけて Baidu に苦情を申し立てると、Baidu は単にその Web サイトをブロックします。しかし、サイトのブロックを自動的に処理する Google などの検索エンジンにとっては、キーワードスタッフィングの不正行為を特定することがさらに重要です。

キーワードスタッキングの不正行為を特定するために、検索エンジンは通常、統計分析手法を使用します。

検索エンジンはまずウェブページを単語に分割します。分割が完了すると、単語数 N と記事の長さ L が得られます。多数の記事の統計から、記事の長さ L と単語数 N の間には一定の分布関係があることがわかります。一般的に言えば、L/N は 4 から 8 の間であり、平均はおよそ 5 から 6 の間です。つまり、1000バイトの長さの記事には、125〜250個のトークンが必要です。中国語と英語の単語の構成は一貫していないため、この比率の範囲は英語と中国語で異なります。検索エンジンが L/N が極端に大きいと判断した場合、その記事にはキーワードスタッフィングがあります。L/N が極端に小さい場合、その記事はいくつかの単語で構成された意味のない記事である可能性があります。著者は、mud embryo 記事でさまざまな著者が公開した記事を確認しましたが、基本的にすべてこの比率の範囲に従っています。

さらに、多数の通常の記事の統計を通じて、記事内で最も密集しているキーワードの出現回数の合計は、N/Lと一定の分布関係にあることがわかりました。検索エンジンは、Webページ内の分布と統計結果の分布グラフを比較して、記事にキーワードスタッキング現象があるかどうかを判断できます。

さらに、検索エンジンはストップワードの割合に基づいて記事が自然な記事であるかどうかも判断します。ストップワードとは、「的」、「我」、「是」など、記事でよく使用される単語またはフレーズです。記事内のストップワードの割合が通常の範囲外である場合、Web ページを Web 品質監視部門に送信してレビューを受ける必要があります。

もちろん、Web ページと自然言語の記事を比較して分析し、記事が自然な記事であるかどうかを判断できるアルゴリズムは他にもあります。

「悪魔は1フィート高いが、道は10フィート高い」ということわざがあります。一部の不正行為者は、単語で記事を作成する不正行為の方法をあきらめ、代わりに文章で記事を作成する不正行為の方法を使用しています。不正行為者は、クローラーまたはその他の手段を使用してオンラインの記事から文章を取得し、ソフトウェアを使用して数十の記事から特定の文章を1つの記事につなぎ合わせます。これには、検索エンジンが意味解析を実行して不正行為があったかどうかを判断する必要があります。ただし、意味解析の研究はまだ研究段階にあり、これは次世代のインテリジェント検索エンジンの方向性でもあります。

しかし、自動記事生成を単純に否定することはできません。人工知能ベースの記事生成は、人間が自らの言語と知能を研究するための重要な方向性です。不正行為と不正行為防止は、人工知能に関する人間の研究を促進するでしょう。

最終的にソフトウェアが人間が理解できる記事を生成できる場合、これはスパムでしょうか、それとも本質でしょうか?十分にインテリジェントではない既存の RSS 集約記事は間違いなくスパムであると断言できますか?しかし、このような記事が大量に出現した場合、私たちはこの現象にどう対処すればよいのでしょうか。

参考文献: Lu Liang および Zhang Bowen 著「検索エンジンの原理、実践、応用」(2007 年)

原題: キーワードスタッキングの検索エンジン認識

キーワード: 検索エンジン

<<: Beida Jade Bird 検索エンジン広告戦略のケーススタディ

>>: 適切な SEO 会社を見つけるための 7 つのステップ

検索エンジンによるキーワードスタッフィングの認識

百度の修正内容は賛否両論の評価を受けている

草の根ウェブマスターのウェブサイトの運営プロセスについてどう思いますか?

「熊張豪 SEOガイド1.0」簡易版！

李嘉奇のトラフィックのおかげで、華熙子はどのようにして有名になったのでしょうか?

タオバオの誤発注事件からヒントを得たマーケティング計画

企業が考慮すべきクラウドコンピューティングの 7 つの課題

SaaSマルチテナントシステムにおけるデータ分離の実装について話す

推奨: 予算ノード - 12 ドル/年/50g 保護/256m メモリ/40g ハードディスク/ロサンゼルス

A5 Webmaster NetworkのウェブサイトTuimei.comがリニューアルされ、ソフト記事プロモーションサービスの提供を開始しました。

タオバオオンラインストアの一般的なプロモーション方法の長所と短所を解読する

推薦する

Mituo テンプレート: 農産物会社のウェブサイトテンプレートの推奨

華雲データとCSICが「有人深海総合メンテナンスビッグデータプラットフォーム研究開発プロジェクト」を締結

Baidu ホームページに追加ボタンの外観に影響を与える要因のグラフィカルな説明

現在のコメント: 企業はパブリッククラウドに移行することで本当にコストを節約できるのでしょうか?

ウェブサイトのオリジナルコンテンツを深く掘り下げて分析する

centerhop: シンガポール VPS、月額 1.5 ドル、256 MB メモリ/5 GB ハードディスク/500 GB トラフィック、無料スナップショット

個人ウェブマスターとローカルウェブサイト構築に関する考察

星文天下は、強力な宣伝力を持つソフト記事執筆のための6つのキーワードをまとめています

上海-アマゾンAWS共同イノベーションセンターが正式にオープン

IBMはまたもや戦いに敗れた。クラウドコンピューティングは Big Blue に悪影響を及ぼしていますか?

インターネット監視の発展動向からウェブマスターが学ぶべきこと

コンテナ化された環境でインフラストラクチャを管理するための 9 つのベストプラクティス

クラウドコンピューティングコンテナの導入に関する推奨事項

医療ウェブサイト: SEO はまだ機能するのか?

faconhost: 年間 17.5 ポンド、米国トリプルネット CUII/AS9929、1G メモリ/1 コア/15g NVMe/500g トラフィック/300M 帯域幅