JikeとBaiduの中国語単語分割技術の異なる戦略

JikeとBaiduの中国語単語分割技術の異なる戦略

現在、インターネット上の情報は急速に増加しており、検索エンジンは人々が情報を見つけるための好ましいツールとなっています。中国でGoogleが立ち上げられて以来、国内のインターネット大手はチャンスを見出しました。その中でも、大手検索エンジンは常に話題になっています。検索市場の価値が高まり続けるにつれて、ますます多くの企業が独自の検索エンジンを開発しており、その最も典型的なのが360の周紅一です。検索エンジン市場が再編される兆しが見えています。当然のことながら、検索エンジン技術も技術者にとってホットな話題となっています。

現在、中国の検索エンジンの分野では、国産の検索エンジンは性能面で海外の検索エンジンとあまり変わりません。このような状況の重要な理由の 1 つは、中国語と英語の文体が異なっており、コンピューターでこれに関連する技術が中国語の単語分割であることです。

中国語の単語分割とは

単語分割とは何ですか? 中国語の単語分割は他の単語分割とどう違うのですか? 単語分割とは、特定の仕様に従って連続した文字列を単語のシーケンスに再結合するプロセスです。英語のテキストでは、スペースが単語間の自然な区切りとして使用されているのに対し、中国語では、文字、文、段落は明らかな区切りで簡単に区切ることができますが、単語には正式な区切りがありません。英語にも句を区切る問題はありますが、単語レベルでは、中国語は英語よりもはるかに複雑で難しいです。

中国語の単語分割と検索エンジン

中国語の単語分割は検索エンジンにどの程度の影響を与えるのでしょうか。検索エンジンにとって最も重要なことは、すべての結果を見つけることではありません。何百億ものウェブページの中からすべての結果を見つけることにはあまり意味がなく、誰もすべてを読むことはできないからです。最も重要なことは、最も関連性の高い結果を先頭に配置することであり、これは関連性の並べ替えとも呼ばれます。中国語の単語分割の精度は、検索結果の関連性ランキングに直接影響することがよくあります。

検索エンジン間の競争はアルゴリズムによって決まるのでしょうか、それとも語彙のインフラストラクチャによって決まるのでしょうか。定性的な分析から、異なる単語分割アルゴリズムと異なる語彙は、ページの返される結果に影響を与えます。以下では、Jikesou と Baidu の単語分割を比較し、Jikesou と Baidu の単語分割アルゴリズムをまとめます。

1. Jike Searchの単語分割アルゴリズムは、基本的にBaiduのものと似ています。

JikeとBaiduの単語分割によって返された結果の比較表を見てみましょう。

2. インスタント検索とBaidu検索結果の分析

Jikesou は基本的に、文字列ベースの単語分割アルゴリズム、理解ベースの単語分割アルゴリズム、統計ベースの単語分割アルゴリズムという 3 つの中国語単語分割アルゴリズムを実装しています。ただし、Jikesou と Baidu 検索によって返される結果を比較すると、Jikesou の語彙は Baidu のものよりはるかに充実していることがわかります。

Jikesouの紹介から、Jikesouは2010年に運営を開始したことがわかります。ウェブマスターにとって考えるべきことは、JikesouがGoogleの検索方法を統合しているかどうかです。図の比較分析から、より良いランキングを獲得するには、単語の完全一致が必要であることがわかります。ただし、Baiduやインスタント検索に基づいて、SEOの観点からは、ロングテールキーワードをさらに拡張し、ユーザーエクスペリエンスを満たす記事をより多く作成することが正しい方法です。

要約すると、単語の分割アルゴリズムは検索エンジンが返す結果の中核的な問題であり、語彙は検索エンジンの競争の焦点です。


原題: JikeとBaiduの中国語単語分割技術の異なる戦略

キーワード: 検索エンジン、Baidu、インスタント、インターネット、単語分割、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  Sina Wireless が従業員を解雇と報道: トラフィック収入が減少、SP 事業が最も打撃を受ける

>>:  企業ウェブサイトの最適化に関する注意事項を例を使って説明する

推薦する

Oracle Analytics Cloudが多くの新しいイノベーションをリリース

自動化された分析ワークフローは、企業がより多様な方法でデータを操作して予測を行うのに役立ちます。 O...

注: 年末最後の日、最後の乾物、[サイバーマンデー]

新年はあっという間に終わります。新年に向けて準備して、ドメイン名、仮想ホスト、VPS、サーバーを準備...

NFV によってもたらされる新たな複雑さとネットワークの盲点をどう解決するか

仮想化は、データセンターの運用効率を向上させる優れたテクノロジーです。コンピューティングとストレージ...

データレポート | 2019年ソーシャルトレンド分析レポート!

サブセクターが成長ポイント: 2019年2月、ソーシャルネットワーク業界のユーザー規模は9億7,30...

異なるキーワードに対して2つの異なるBaiduスナップショットが表示される理由を分析する

Baiduキーワードランキング最適化では、キーワードランキングを自分で照会すると、ホームページでもこ...

#Cyber​​Monday# profitserver: VPS 50% オフ、月額 2.88 ドル、トラフィック無制限、香港/シンガポール/ロシア/スペイン/ドイツ/オランダ

ロシアの会社であるProfitserverは、2005年に設立された古いブランドです。現在は世界21...

Kafka の代替となる KubeMQ

[[429604]] [51CTO.com クイック翻訳]昨今、インタラクティブなコンポーネントの増...

2012 年ウェブマスター年次会議はモバイルに焦点を当て、モバイル インターネットで収益を上げる方法について議論します

4月7日、Comsenzとim286が共催する「2012年中国インターネットウェブマスター年次大会」...

クラウドコンピューティングの統合は必須

過去 10 年間、クラウド コンピューティングの導入サイクルが見られ、多くの組織が契約とサービス ポ...

XiNiX-仮想ホスティング/年間支払い5ドル/cpanel/6シンガポールおよびその他の場所にデータセンターあり

XiNiX™ InfoTech Pvt. Ltd. には安価な仮想ホストがいくつかあり、オプションの...

Mivocloud: ロシアの OpenStack クラウド、5 ユーロ/2g メモリ/40g SSD/無制限トラフィック

モルドバの商人である moldova は、モルドバとルーマニアに独自のデータ センターを持っています...

「万家ショッピング」の舞台裏:リベートパイが罠になった経緯

わずか2年前、金華市の「万家ショッピング」リベートウェブサイトはほとんど知られていなかった。浙江省金...

ウェブサイトの改訂の合理的な方法に関する私の意見

多くのSEO担当者の目には、ウェブサイトの再設計は非常に神秘的なものです。彼らは皆、ウェブサイトの再...

AWS がシーメンス (中国) の新しいスマートホーム システムの構築を支援

Amazon Web Services, Inc. (AWS) は、シーメンス (中国) が最近中国...