Sina Weibo の Nanwei Hu: Weibo 情報ストリーム推奨におけるディープラーニングの実践

Sina Weibo の Nanwei Hu: Weibo 情報ストリーム推奨におけるディープラーニングの実践

[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフトウェア開発技術サミットが深セン中州マリオットホテルで開催されます。このサミットのテーマはソフトウェア開発であり、数十名の専門家ゲストが多くの素晴らしい技術コンテンツを共有します。当時、新浪微博のシニア機械学習アーキテクトである胡南偉氏は、ディープラーニングとインテリジェントアプリケーション開発サブ会場のゲストに「微博情報フロー推奨システムにおけるディープラーニングの実践と応用」と題した基調講演を行い、新浪微博チームが微博情報フロー推奨システムにディープラーニングをどのように応用しているかを詳しく説明しました。 51CTO は、皆様がこのカンファレンスにご参加いただき、テクノロジーがもたらす喜びを私たちと共有していただくことを心より願っております。

51CTO記者は、同会議で講演する胡南偉氏に独占インタビューを行った。彼がディープラーニングをどのように解釈しているかをちょっと覗いてみましょう。

複雑なシナリオにはディープラーニング技術が必要

モバイル時代において、人々の情報コンテンツへのアクセスや閲覧方法は大きく変化しました。情報フロー推奨は、ソーシャル推奨の分野における比較的新しいトピックです。人工知能技術は、人々が情報にアクセスする方法を変え、コンテンツの作成、レビュー、配信、消費、インタラクションの効率と品質を大幅に向上させました。

Weibo の情報フローの推奨の特性を考慮すると、従来の機械学習では、大規模なユーザー、複雑なシナリオ、より強力なパーソナライズされた消費のニーズを満たすことができなくなりました。そのため、Sina Weiboチームの注目は、従来の機械学習からディープラーニングの分野へと徐々に移っていった。画像、動画、音声など、ディープラーニングが比較的得意とする分野では、Sina Weibo はすでに成熟した製品を持っているか、Weibo ユーザーの大半にひっそりと高品質のサービスを提供している。同時に、ディープラーニングの応用が比較的珍しい分野でも、Sina Weibo は高次元の Weibo 製品機能を深く探求するために多くの研究開発努力を投入してきました。対応するおすすめ商品はWeiboユーザーの日常生活に応用されていると考えられる。

現在、ディープラーニングに基づくマイクロブログ情報フロー推奨システムは、主にメインフィード推奨、人気マイクロブログ推奨、プッシュ推奨などの推奨に使用されています。その機能は次のとおりです。

1. 大規模なサンプル サイズ: 1 回のトレーニング実行のサンプル サイズは 5,000 億を超える場合があります。

2. 大規模な特徴次元 特徴次元は10 億次元以上に達することがあります。

3. 機能カテゴリは複雑で、 Weibo機能、ユーザー機能、関係機能、再投稿、コメントといいね機能、インタラクション機能、露出機能、画像機能、ビデオ機能などが含まれます。

ディープラーニングの本質は特徴を学習することです。ディープラーニングは、レイヤーごとの学習を通じて、元のデータから変更することが容易ではない潜在的な高レベルの特徴を自動的に学習し、これらの高レベルの特徴に基づいて分類などの学習タスクを実行します。従来の機械学習では、多くの特徴エンジニアリング作業が必要になります。機械学習の効果は、抽出された特徴の品質と密接に関係している場合があります。多くの場合、潜在的な特徴の一部を抽出することが困難であり、学習結果が悪くなります。

幅と奥行きのモデル

CNN がその一例です。下の図に示すように、畳み込みとプーリングを通じてネイティブピクセルから特定の種類の画像に共通する高レベルの特徴(鳥のくちばし、羽、鳥の爪など)を抽出し、これらの特徴に基づいて画像が鳥であるかどうかを識別できます。つまり、ディープラーニングは学習を容易にし、特徴学習を通じてより良い結果を実現します。

理論上は浅いニューラル ネットワークでも複雑な関数をシミュレートできますが、多くの複雑な問題ではディープ ラーニングの方が効率的であり、ディープ ラーニングではより少ないパラメーターでより複雑な関数を表現できます。

企業が簡単に素早くトレーニングして反復できるCTRトレーニングキット

Sina Weiboチームは、Wide & Deep Learningモデルを参考に、Weiboシナリオにおける関連レコメンデーションサービスのニーズと特性を組み合わせ、連続、離散、テキスト、ラベル機能の処理、ネットワーク構造パラメータ、モデルのエクスポートと予測を標準化し、迅速なビジネストレーニングと反復が容易なディープラーニングCTRトレーニングキットを開発しました。

このキットには次の 3 つの機能があります。

1. 構成:プログラムを書く必要はなく、モデルをトレーニングするための XML 構成ファイルを書くだけです。

2. 統合:主にデータ、動作環境、オンライン予測の統合に反映されます。

データエンドでは、Weibo 固有の機能 (タグなど) に合わせてカスタマイズされたさまざまなネットワーク構造が統合されています。運用環境の統合の目的は、Weibo 内の複数のトレーニング クラスターに接続し、さまざまなスケジュール システム間の違いを隠すことです。オンライン予測統合は、オンライン予測システムとモデルストレージシステムに接続され、オフライントレーニングとオンライン予測をシームレスに接続します。

3. 可視化:テンソルボード機能を使用して、Weibo 固有のデータの可視化機能をカスタマイズします。

ディープラーニングを適用することで、Sina Weiboの情報フロー推奨システムの特徴次元は1億次元を超え、サンプルサイズは数千億を超えました。オフライントレーニングと評価にディープラーニングモデルを採用し、分散型かつ大規模なディープラーニングモデルのトレーニングを実現しました。現在、小規模フローのオンラインテストの有効性を評価し、大規模適用を計画しています。

【講師プロフィール】

[[209956]]

Nanwei Hu 氏は、Weibo の機械学習コンピューティングおよびサービス プラットフォームのシニア アーキテクト兼責任者です。彼は博士号を取得しています。北京航空航天大学コンピュータサイエンス工学部卒業。彼はソフトウェアエンジニアリングの研究開発とインターネット業界で長年の経験を持っています。彼の個人的な技術的専門知識は、ビッグデータ、クラウド コンピューティング テクノロジー、機械学習にあります。彼は2014年にWeiboに入社し、Weiboの機械学習コンピューティングとサービスプラットフォームの開発を担当しています。彼は以前、IBMやYahooなどの企業で働いていました。

ダブル11特別割引コード[B310BD20D337F914]を使用して200元の割引を受け、私と一緒にWOTDグローバルソフトウェア開発テクノロジーサミットに行きましょう!詳細については、 wot..comをクリックしてください。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  Java 仮想マシンはどのようにしてスレッド同期を実行しますか?

>>:  Oracle Hospitality、Hangzhou Green Cloud をソリューションおよび Oracle 製品の最新ディストリビューターとして認定

推薦する

weloveservers-素晴らしいプロモーション/アメリカ兵戦没者追悼記念日/512M年払い$12

私はアメリカ兵の日に関するプロモーションメールをweloveserversから受け取りました。このメ...

Qingyun:最大25%割引、cn2高防御VPS、香港ダイナミックVPSなど、トップアップして無料のお金を得る

LightVM は昨年の春節に特別プロモーションを実施しました: (1) 全製品が永久に 25% オ...

バイトダンスを神格化しない

ByteDance は設立されてまだそれほど長いわけではありませんが、急速に成長し、アプリも広く普及...

Dogyun日本IIJ回線VPS簡単評価、ここ数年で人気の高速回線を体験

Linodeの日本データセンターがまだiij回線を使用していた頃は、国内購入料金が非常に人気がありま...

鉄道省が電子商取引の購買代理店をブロック:1年後には販売店の50%が閉鎖される可能性も

4月初旬から、鉄道部は列車チケット購入代理店に対する「厳重取り締まり」キャンペーンを開始した。JD....

Baidu による Sina Weibo リアルタイム検索の開始は、インターネットにどのような変化をもたらすでしょうか?

Admin5によると、3月1日夜、百度は新浪微博のコンテンツを統合したリアルタイム検索サービスを開始...

Xiaohongshu がリリースされました。失敗したアプリはどうやって復活したのでしょうか?

小紅書が店頭から撤去されてから2ヶ月以上が経ちました。 10月14日には、小紅書が近日中に店頭に並ぶ...

2014 年の ASO に関する 5 つの誤解に騙されていませんか?

アプリは非常に大きなビジネスです。ウォール・ストリート・ジャーナルによると、アプリの売上は現在250...

検索エンジンマーケティングの初心者と専門家を区別する方法

国内インターネットの過去 10 年間で、検索エンジン マーケティングは著しい成長を遂げました。SEO...

企業のブランドマーケティングに関する簡単な説明

2012年に「電子商取引」が急速に発展した時、多くの中小企業は、規模を拡大するには自社ブランドのマー...

myserverplanet - 年間 5 ドルで無制限のトラフィックの仮想ホスト、英国のデータ センター

myserverplanet(登録年:2010年、英国企業)が新しいビジネスを立ち上げ、cpanel...

AIベースのクラウド管理ツールではコンテキストが重要

AI を活用したクラウド管理ツールはまだ導入の初期段階にありますが、IT 業界の専門家は、このような...

ウェブマスターネットワークレポート:テンセントWeiboによるYixinの商業化はWeChatに衝撃を与えるか?

1. 羅振宇の成功は再現が難しい:セルフメディアはチャネル商業化の困難に直面優酷の人気番組「洛基思微...