疑似オリジナルコンテンツを見分ける方法:情報指紋技術

疑似オリジナルコンテンツを見分ける方法:情報指紋技術

SEO に携わる人なら誰でも、「コンテンツは王様、外部リンクは女王」ということわざを知っていると思います。これは、ウェブサイトへのコンテンツと外部リンクの重要性を示しています。外部リンクはウェブサイトのキーワードランキングを向上させる鍵であり、コンテンツはウェブサイトの基盤です。

サイトのコンテンツを更新することは、ウェブサイトにとって非常に重要です。コンテンツの独創性は、コンテンツを構築するときに特に注意を払う必要があるものです。しかし、検索エンジンはどのようにしてオリジナルのコンテンツを判断するのでしょうか。今日、Xuzhou Yiwang は検索エンジンの情報フィンガープリント技術についてお話しします。

まず、情報指紋技術についてお話しします。私は ZAC でのトレーニング セッション中にこの概念に出会いました。 Baidu 百科事典における情報指紋技術の説明は次のとおりです。情報の特徴 (通常は単語のグループ、または単語のグループ + 重み) を抽出し、この単語のグループに基づいて MD5 などの特別なアルゴリズムを呼び出して、コード セットに変換します。このコード セットが情報を識別する指紋になります。

検索エンジンはコンテンツをクロールした後、まず記事内の特徴情報に関係のないキーワード(I、you、he などのタイトル、and、but などの接続詞、le、mei、ne、ba、ah などの助詞)を削除します。これらの単語は情報の識別には役立ちません。次にテキスト情報の抽出を行います。テキスト情報のフィンガープリントは容易ではありませんが、音声や画像のフィンガープリントを抽出するのはさらに困難です。これが、検索エンジンが音声や画像を認識できない理由です。

以下は、ZAC 先生が提供したテキスト情報フィンガープリント抽出に関するコンテンツの図です。この図の情報の一部は、以降の疑似オリジナル手法の説明で使用します。

検索エンジンが疑似オリジナルコンテンツを作成する方法についての記事をよく目にします。主な手法は次のとおりです。

1. タイトルを変更したり、タイトル内の類似の単語を置き換えたり、単語を並べ替えたりします。たとえば、元のタイトルは「疑似オリジナルコンテンツの判断方法」ですが、「疑似オリジナルコンテンツの判断方法」に変更できます。

情報フィンガープリント技術によれば、このような変更は無効です。検索エンジンにタイトルが異なっていると認識させたい場合、比較的大きな変更を加える必要があります。たとえば、元のタイトルを「検索エンジンが疑似オリジナルコンテンツを判断する基準」に変更すると、検索エンジンによってこのタイトルがオリジナルであると判断されやすくなります。

2. コンテンツの段落の順序をずらしたり、他の人の記事の段落を逆にしたり、記事内の一部のテキスト構造を逆にしたりします。

この方法は実際には役に立ちません。情報フィンガープリント技術によって抽出されたコンテンツは、基本的に元の記事と同じだからです。検索エンジンはデータベース内で同じ情報フィンガープリントを持つ記事を見つけることができるため、あなたの記事を収集された記事として判断します。

3. 記事の結合: 同じトピックに関する異なる記事を段落に結合します。

多くの人が段落を逆にしたいと思っても失敗しますが、複数の記事を組み合わせることは常に可能です。しかし、実際にはこの方法も効果的ではありません。検索エンジンが情報フィンガープリントを取得してデータベース全体と比較した後でも、異なる段落の情報フィンガープリントがデータベース内で同じフィンガープリントを見つけることができるためです。

4. 記事にキーワードを強制的に追加します。これは通常、いくつかの関連記事にわずかな変更を加えてから、キーワードを強制的に追加することによって行われます。これは、疑似オリジナル コンテンツを作成する初期の方法です。

これは、写真の内容と関係があります。写真の1列目の指紋は元の記事の指紋であり、2列目の指紋はSEOキーワードを強制的に追加した後の指紋です。指紋が大きく変化したことがはっきりとわかるので、この方法は効果的です。そのため、ダウンロードした小説にキーワードを追加すると、最終的にうまく含まれることがあります。これは、異なる情報フィンガープリントにより、検索エンジンによってオリジナルコンテンツとみなされるためです。しかし、ユーザーエクスペリエンスの観点から見ると、そのような記事はあまり読みやすくありません。

ここまでで、良い疑似オリジナルを作る方法について考えたことはありますか?

ここで徐州易王は情報指紋技術について簡単に説明します。キーワードの抽出方法などのより深い技術については、私の技術力が浅く、プロの検索エンジン研究者ではないため、あまり詳しくありません。

上記コンテンツは徐州易旺(http://www.exz.cn)が作成したものです。転載の際は出典を明記してください。


原題: 疑似オリジナルコンテンツを見分ける方法: 情報フィンガープリント技術

キーワード: オリジナル

<<:  360 は Sogou がユーザーのパスワードを収集した証拠を公開、Sogou はライバルを中傷キャンペーンで非難

>>:  1回の広告収入78,000円!ゴーストレッグセブンがセルフメディアを嫉妬させる

推薦する

Baidu Bear、宋慶齢財団の検索ページをよりパーソナライズ化

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています中国宋慶齢...

英語のSEOケースの運用経験

ロビンは最近、英語の SEO プロジェクトに取り組んでいます。関連データを観察し、いくつかの戦略を実...

「ブルーオーシャン」のジレンマ:国内生鮮食品電子商取引の拡大は物流ジレンマに陥る

2013年、生鮮食品の電子商取引は静かに盛り上がっています。天猫、京東、No.1 Storeなどの大...

ウェブサイトがブロックされたときに知っておくべき8つの要素

1. ウェブサイトが K-ed されるとはどういう意味ですか?ウェブサイトが正常に登録されていた場合...

WeChatインターネットの時代、SEOを効果的に行う方法

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています最近、SE...

入札ウェブサイトがますます増える中、ウェブマスターは何をすべきでしょうか?

数年前、多くのウェブマスターは入札について何も知りませんでした。しかし、今はどうでしょうか?大小さま...

インフォアがサプライチェーンを改革、GT Nexus Digital Network を Infor Nexu に改名

業界特化型ビジネス クラウド ソフトウェアの大手プロバイダーである Infor は、データとインテリ...

「リンクの売買の害」から Baidu SEO ガイドの合理的な考察まで

Baidu Webmaster Platform の情報エリアに注目すると、Baidu が Web ...

virtono: 年間 9.95 ユーロ、512 MB メモリ/20g SSD/ルーマニア/オランダを含む 5 つのオプション データ センター

Virtono は本日、1Gbps の帯域幅、ルーマニア、英国、オランダ、ドイツ、米国 (マイアミ)...

次世代ネットワークに向けて IPv6 テクノロジーを採用

有名な樽効果は、「バケツにどれだけの水が入るかは、最も短い木片によって決まる」ということを教えてくれ...

ロゴデザインは本当に難しいです!デザイン経験がない場合はどうすればいいでしょうか?

月収10万元の起業の夢を実現するミニプログラム起業支援プラン企業やブランドのシンボルとして、ロゴはど...

Apple はクラウド コンピューティングの「技術専門家」を数名雇用していますが、AWS や Google に頼るつもりはもうないのでしょうか?

海外メディアの報道によると、Appleは過去数ヶ月間にクラウドコンピューティング分野のトップクラスの...

PHPエラーを利用してリンクを取得する方法

1. 検索エンジンを使って問題のあるサイトを見つける少し前に、ウェブサイトで「壊れたリンクの構築」に...

中国におけるアマゾンのジレンマ:技術的優位性は価格競争やプロモーションに勝てない

天猫のダブル11プロモーションの取引高は191億元に達し、11月13日には価格戦争に強いJD.com...

スタート地点で勝つ: 「古い」ドメイン名の方が成功する可能性が高い理由

ドメイン名取引市場は活況を呈しており、数万から数十万ドルの価値があるドメイン名が無数にあります。その...