オリジナルのSparkプロジェクトによるスパムの識別と処理

オリジナルのSparkプロジェクトによるスパムの識別と処理

BaiduがオリジナルのSpark Planを発表し始めてから、ウェブサイトのコンテンツの品質が非常に重要になり始めました。逆に、ウェブサイトのコンテンツの質が非常に低い場合、ウェブサイトの成長と将来に大きな悪影響を及ぼします。したがって、現在のウェブマスターにとって、この危機を効果的に回避するために、できるだけ早くウェブサイト上のスパムコンテンツを特定して対処することが重要です。実際、第2世代のGreen Radish Algorithmのリリース後、大多数のウェブマスターに一定のバッファ時間を与えているため、ウェブサイト上のスパムコンテンツをクリーンアップすることが非常に重要になっています。

ウェブサイトのスパムの特定

現在、ウェブサイト上のスパムコンテンツについては、2つの一般的な認識があります。1つは、ウェブサイト上の大量の重複コンテンツと盗作コンテンツです。多くのウェブマスターがこの点に同意すると思いますが、一部のウェブマスターの友人にとって、これは絶対的ではありません。なぜなら、実際には、転載された高品質の記事の一部は、ウェブサイトに一定のプラス効果をもたらすからです。少なくとも、ユーザーは最新の情報を近くで入手できるようになります。したがって、一部の転載記事も必要であり、必ずしも完全にクリーンアップする必要はありません。

もう一つのポイントは、ウェブサイトには大量の盗作ソフト記事が掲載されており、これらのソフト記事では、一部のダイエット商品や**ソフト記事など、偽の商品を販売しているということです。ウェブサイトにこのようなコンテンツがある場合、Baiduに好まれず、スパムと判断されることがよくあります。

この2点以外にも、実はジャンクコンテンツと推定できるコンテンツが他にもあると私は考えています。それは、一部のウェブサイトでランダムに作成される、高品質な疑似オリジナルコンテンツです。これらの疑似オリジナルコンテンツは、一見オリジナルに見えますが、言葉が意味を表さず、記事も短いです。ユーザーは基本的にそのページに留まらず、開いたらすぐに閉じてしまいます。明らかにクリックベイトの疑いがあるタイトルで、このようなコンテンツは完全にジャンクコンテンツと推定できます。友人の中には、ウェブサイトのスパムコンテンツは訪問回数で判断できると考える人もいます。これは、Green Radish Algorithm が登場する前は役に立ったかもしれません。第 2 世代の Green Radish Algorithm のインテリジェンスは大幅に向上したため、訪問回数はもはや絶対的な要素ではありません。

なぜなら、一部のスパムコンテンツには、明らかにクリックベイトのタイトルが疑われるものが多いからです。コンテンツ自体は極めて質が悪いのですが、ユーザーの世界観を壊すタイトルがあるからこそ、ユーザーのクリックを引き付けることができるのです。しかし、基本的にこうしたユーザーは滞在時間が短いです。この点から見ると、訪問数は少なくありませんが、そのようなクリックベイトコンテンツが高品質であることを証明することはできません。

スパムコンテンツを削除する方法

ウェブサイトのスパムコンテンツが多ければ多いほど、ウェブサイトに多大な悪影響を与える可能性が高くなります。ウェブマスターが第 2 世代の Green Radish アルゴリズムによってウェブサイトを整理する時間枠が完全に終了する前に、ウェブマスターはウェブサイト上のスパムコンテンツを速やかに処理する必要があります。具体的な方法は 3 つあります。1 つはブルート フォース削除です。これは最も単純で直接的な方法ですが、ウェブマスターがウェブサイトのコンテンツをたどる必要があり、時間がかかります。 2 つ目の方法は、ロボット プロトコルを使用して特定の列をブロックし、検索エンジンによるクロールを防ぐことです。たとえば、スパム領域やソフト テキスト領域のコンテンツにはジャンク コンテンツが集中しています。列を直接ブロックすることで、コンテンツをすばやく削除できます。

最後のポイントは、再編成されたウェブサイトを再び検索エンジンに送信し、検索エンジンがコンテンツを整理した後のウェブサイトを感じ取り、検索エンジンがそれを再認識して重み付けできるようにすることです。これにより、大量のスパムコンテンツが原因でウェブサイトの評価が下がるという危険な状況を効果的に回避できます。この記事の出典:http://www.zgmrrcw.com 中国美才網が最初にA5で出版しました。原著は転載しにくいので、リンクをそのままにしておいてください。ありがとうございます!


元のタイトル: 元の Spark プロジェクトによるスパム コンテンツの識別と処理

キーワード: オリジナル、Spark、計画、ジャンク、コンテンツ、識別、処理、Baidu、開始、発表、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  百度が医療業界を抑圧する理由について簡単に議論する

>>:  オリジナルコンテンツ VS ユーザーエクスペリエンス: 優れたコンテンツとは?

推薦する

モバイル アプリケーション市場の爆発的成長: APP 開発アウトソーシングの新たなパイを獲得

編集者注/スマート端末の急速な普及により、アプリケーションのダウンロードが劇的に増加しました。モバイ...

張建鋒氏:「アリババクラウドは政府および企業市場に全面的にサービスを提供する準備ができています!」

5月28日、アリババクラウドインテリジェンスの社長である張建鋒氏はクラウドサミットで次のように述べま...

駅長は鉄道省からマーケティングを学ぶべきだ

今月18日、ラオ・チエンさんは幸運にも深圳発武漢行きのT96列車の乗車券を買うことができた。彼はまる...

adman: 新年 50% オフ、ノボシビルスク、ロシア極東、VPS、専用サーバー

Adman、ご存知の方も多いと思いますが、Admanの自社ロシア極東データセンターノボシビルスクはな...

ellipsis-$10/年/100MB RAM/10GB HDD/10MB無制限/OVH/カナダ/480GB DDOS保護

Ellipsis Node は主に OVH のカナダ データ センターの VPS を運用しています。...

チャネル運営: 新規参入者がアプリストアのプロモーションをうまく行うにはどうすればよいでしょうか?

1チャンネル運営プロモーションとは「チャネル」という用語は長い歴史があり、伝統的な産業からビジネス分...

低価格≠高コストパフォーマンス。分散ルーターを購入する際に知っておくべきこと

インターネットで話題となった新しい「分散ルーティング システム」の登場により、WiFi ワイヤレス ...

コンテンツの質を高めるとSEOが簡単になります

我が国のインターネットの発展に伴い、インターネットは私たちの日常生活に欠かせないものとなり、オンライ...

IoTの成長が牽引するエッジコンピューティングの4つの垂直アプリケーション

データは今日の経済の生命線であり、あらゆる業界の企業が顧客に優れた、よりパーソナライズされたエクスペ...

臨沂人材ネットワークの発展に基づく地元人材募集ウェブサイトの運営分析

21 世紀で最も高価なものは何でしょうか? 才能です!社会経済の発展に伴い、企業の雇用、特にエリート...

VMware 仮想ラボの構築に関する 3 つの FAQ

ミニ PC (Intel の Next Unit of Computing デバイスや MSI の ...

ITコミュニティサイトCSDNがシリーズA資金調達の完了を発表 - A5ウェブマスターネットワーク

新浪科技新聞10月23日午後、ITコミュニティサイトCSDNは本日、シリーズA資金調達を完了したと発...

次世代のOracle Autonomous Data Warehouseビジネスデータプラットフォームが革新的な機能を導入

企業に使いやすく、コード不要のツールを提供します。従来はデータ エンジニアやデータ サイエンティスト...

Qutoutiaoのコンテンツブレイクスルー

12月17日、 Qutoutiaoは新四半期の財務報告を発表した。インターネット業界では、大手企業で...