検索エンジンによるキーワードスタッフィングの認識

検索エンジンによるキーワードスタッフィングの認識

検索エンジンと検索エンジン最適化 (SEO) は、常に矛盾した関係にあります。適切な最適化は、検索エンジンが Web サイトのコンテンツを識別し、Web サイトの宣伝に役立ちます。しかし、良い面と悪い面があります。SEO 担当者の中には、含まれるページ数やページランキングを上げるために、さまざまな欺瞞的な手段を使って検索エンジンを欺く人もいます。

初期の SPAM 不正行為の 1 つは、ソフトウェアを使用して中国語の語彙から単語をつなぎ合わせて記事を作成することでした。このような記事には実用的な意味はなく、検索エンジンでしか見ることができませんでした。では、検索エンジンはどのようにしてそのような記事を識別するのでしょうか?

すべての検索エンジンには、Web ページの品質を監視する部門があることは周知の事実です。Baidu のような手動処理を伴う検索エンジンの場合、ユーザーがそのような Web サイトを見つけて Baidu に苦情を申し立てると、Baidu は単にその Web サイトをブロックします。しかし、サイトのブロックを自動的に処理する Google などの検索エンジンにとっては、キーワード スタッフィングの不正行為を特定することがさらに重要です。

キーワードスタッキングの不正行為を特定するために、検索エンジンは通常、統計分析手法を使用します。

検索エンジンはまずウェブページを単語に分割します。分割が完了すると、単語数 N​​ と記事の長さ L が得られます。多数の記事の統計から、記事の長さ L と単語数 N​​ の間には一定の分布関係があることがわかります。一般的に言えば、L/N は 4 から 8 の間であり、平均はおよそ 5 から 6 の間です。つまり、1000バイトの長さの記事には、125〜250個のトークンが必要です。中国語と英語の単語の構成は一貫していないため、この比率の範囲は英語と中国語で異なります。検索エンジンが L/N が極端に大きいと判断した場合、その記事にはキーワード スタッフィングがあります。L/N が極端に小さい場合、その記事はいくつかの単語で構成された意味のない記事である可能性があります。著者は、mud embryo 記事でさまざまな著者が公開した記事を確認しましたが、基本的にすべてこの比率の範囲に従っています。

さらに、多数の通常の記事の統計を通じて、記事内で最も密集しているキーワードの出現回数の合計は、N/Lと一定の分布関係にあることがわかりました。検索エンジンは、Webページ内の分布と統計結果の分布グラフを比較して、記事にキーワードスタッキング現象があるかどうかを判断できます。

さらに、検索エンジンはストップワードの割合に基づいて記事が自然な記事であるかどうかも判断します。ストップワードとは、「的」、「我」、「是」など、記事でよく使用される単語またはフレーズです。記事内のストップワードの割合が通常の範囲外である場合、Web ページを Web 品質監視部門に送信してレビューを受ける必要があります。

もちろん、Web ページと自然言語の記事を比較して分析し、記事が自然な記事であるかどうかを判断できるアルゴリズムは他にもあります。

「悪魔は1フィート高いが、道は10フィート高い」ということわざがあります。一部の不正行為者は、単語で記事を作成する不正行為の方法をあきらめ、代わりに文章で記事を作成する不正行為の方法を使用しています。不正行為者は、クローラーまたはその他の手段を使用してオンラインの記事から文章を取得し、ソフトウェアを使用して数十の記事から特定の文章を1つの記事につなぎ合わせます。これには、検索エンジンが意味解析を実行して不正行為があったかどうかを判断する必要があります。ただし、意味解析の研究はまだ研究段階にあり、これは次世代のインテリジェント検索エンジンの方向性でもあります。

しかし、自動記事生成を単純に否定することはできません。人工知能ベースの記事生成は、人間が自らの言語と知能を研究するための重要な方向性です。不正行為と不正行為防止は、人工知能に関する人間の研究を促進するでしょう。

最終的にソフトウェアが人間が理解できる記事を生成できる場合、これはスパムでしょうか、それとも本質でしょうか?十分にインテリジェントではない既存の RSS 集約記事は間違いなくスパムであると断言できますか?しかし、このような記事が大量に出現した場合、私たちはこの現象にどう対処すればよいのでしょうか。

参考文献: Lu Liang および Zhang Bowen 著「検索エンジンの原理、実践、応用」(2007 年)

原題: キーワードスタッキングの検索エンジン認識

キーワード: 検索エンジン

<<:  Beida Jade Bird 検索エンジン広告戦略のケーススタディ

>>:  適切な SEO 会社を見つけるための 7 つのステップ

推薦する

Mituo テンプレート: 農産物会社のウェブサイト テンプレートの推奨

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています売れ残り農...

華雲データとCSICが「有人深海総合メンテナンスビッグデータプラットフォーム研究開発プロジェクト」を締結

[[264771]] 2019年無錫高レベル人材イノベーション・起業交流会議の期間中、イノベーション...

Baidu ホームページに追加ボタンの外観に影響を与える要因のグラフィカルな説明

先週、Baidu のホームページにナビゲーション コラムがあることに気づきましたが、そのときはあまり...

現在のコメント: 企業はパブリック クラウドに移行することで本当にコストを節約できるのでしょうか?

現在、中国のクラウドコンピューティング市場は急速な発展期にあり、伝統的な業界の企業はクラウドサービス...

ウェブサイトのオリジナルコンテンツを深く掘り下げて分析する

今日の SEO は独創性の時代です。Web サイトのオリジナル コンテンツが多ければ多いほど、SEO...

個人ウェブマスターとローカルウェブサイト構築に関する考察

私は5年間個人ウェブマスターをしています。私は大学時代にデザインを学びました。私がウェブサイトを好き...

星文天下は、強力な宣伝力を持つソフト記事執筆のための6つのキーワードをまとめています

ソフト記事はなぜ存在するのか?星文天下がこの疑問を提起したとき、ソフト記事が存在する根本的な理由、つ...

上海-アマゾンAWS共同イノベーションセンターが正式にオープン

2018年6月29日、上海とアマゾンウェブサービス(北京)有限公司(以下、「アマゾンAWS」)が共同...

IBMはまたもや戦いに敗れた。クラウド コンピューティングは Big Blue に悪影響を及ぼしていますか?

最近、IBM中国研究所(IBM CRL)が全面閉鎖されたとネット上で報じられた。この噂に応えて、IB...

インターネット監視の発展動向からウェブマスターが学ぶべきこと

最初はゲームの実名制、そして今度はWeiboの実名制で、インターネット製品に対する国の監督がますます...

コンテナ化された環境でインフラストラクチャを管理するための 9 つのベストプラクティス

コンテナ テクノロジーを採用すると、開発者の作業は楽になりますが、運用チームにとっては複雑になること...

クラウドコンピューティングコンテナの導入に関する推奨事項

クラウド コンピューティング市場を支配しているクラウド コンテナ テクノロジーは、従来のハイパーバイ...

医療ウェブサイト: SEO はまだ機能するのか?

2012年6月から、百度は特に医療系ウェブサイトをターゲットにSEOの取り締まりを強化し始めた。その...

faconhost: 年間 17.5 ポンド、米国トリプルネット CUII/AS9929、1G メモリ/1 コア/15g NVMe/500g トラフィック/300M 帯域幅

faconhost は、米国ロサンゼルスのデータセンターに VPS/クラウド サーバー事業を追加しま...