8月21日、テンセントクラウドは、128枚のImageNetトレーニングで業界新記録を樹立し、2分31秒というタイムでこの分野の世界記録を更新したと正式に発表した。マシン間のネットワーク帯域幅を変更すると、結果はさらに 2 分 2 秒に改善され、この記録は新たな高さに到達します。 この記録は、パブリック クラウドの 25Gbps VPC ネットワーク環境をベースに、128 個の V100 GPU と、新たに開発された Light 大規模分散型マルチマシンおよびマルチカード トレーニング フレームワークを使用して作成されました。最終結果は、ImageNet 28 エポックのトレーニングに 2 分 31 秒かかり、TOP5 の精度は 93% でした。これまでの業界最高記録は2分38秒でした。この記録の背後には、テンセントクラウドインテリジェントチタンチーム、テンセントインテリジェンスチーム、テンセントYoutuラボ、香港バプテスト大学コンピュータサイエンス学部のチュー・シャオウェン教授のチームがいると理解されている。 人工知能の最も重要な基礎技術の一つとして、ディープラーニングの応用はスマートシティやスマート製造など多くのシナリオに急速に拡大しています。しかし、需要の高まりと並行して、膨大なデータと長いトレーニング時間、ますます複雑化するコンピューティング モデル/構造、多数のパラメーター、幅広いハイパーパラメーターなど、ディープラーニングのトレーニングでは多くの問題が発生しています。これらの問題により、ディープラーニングアプリケーション開発の進歩が妨げられてきました。高性能 AI のトレーニングとコンピューティングをどのように実行するかは、AI の生産と研究開発の効率に関係するだけでなく、AI 製品の反復効率と成功した発売にも重要な影響を及ぼします。効率的なトレーニングのための非常に重要なベンチマークは、大規模なビジュアル データベース ImageNet をより短時間でトレーニングする方法です。 このような背景から、Tencent Cloud は複数のチームと協力し、Light 大規模分散型マルチマシンおよびマルチカード トレーニング フレームワークを開発し、ディープラーニング トレーニングの速度、マルチマシンおよびマルチカードのスケーラビリティ、バッチ コンバージェンスなどの点で業界に新しいトレーニング ソリューション セットを提供しています。 単一マシンのトレーニング速度に関しては、Tencent Cloud はまず GPU クラウド サーバーのメモリと SSD クラウド ディスクを使用して、トレーニング プロセス中にトレーニング プログラムのデータのプリフェッチとキャッシュを提供し、リモートに保存されたデータへのアクセスを高速化します。多数のスレッドが競合することでCPU効率が低下する問題を解決するため、Tencent Cloudはデータ前処理スレッドの最適な数を自動的に調整してCPU切り替えの負担を軽減し、データ前処理とGPUコンピューティングを並行して実行できるようにすることで、全体的なトレーニング速度を向上させます。 マルチマシン拡張トレーニングでは、従来の TCP 環境では、マシン間通信データをビデオメモリからメインメモリにコピーし、CPU でデータの送受信を行う必要がありました。計算時間が短く、通信時間が長いため、複数のマシンと複数のカードのスケーラビリティが大きな課題となりました。 Tencent Cloud は、Light によってマルチマシントレーニングを効率的に拡張しました。適応勾配融合技術、階層型通信+マルチストリーム手段、階層型TopK圧縮通信アルゴリズムなどにより、通信中のネットワーク帯域幅を最大限に活用し、マシン間通信の時間を最適化します。 さらに、大規模クラスターの計算能力を最大限に活用するために、業界では現在、主にトレーニングのバッチサイズを継続的に増やすことでトレーニング速度を向上させていますが、バッチサイズの増加は精度に影響を与え、損失をもたらします。この問題を解決するために、Tencent Cloud は、大規模バッチパラメータ調整戦略、勾配圧縮精度補正、AutoML パラメータ調整などの方法を通じて、バッチサイズを効果的に増やしながら、精度への影響を最小限に抑えました。 Light 大規模分散マルチマシンおよびマルチカード トレーニング フレームワークとプラットフォームなどの一連の完全なソリューションを通じて、ImageNet トレーニングの結果は新たなブレークスルーを達成しました。効率的なトレーニングを実現するとともに、その機能は Tencent Cloud Intelligent Titanium Machine Learning プラットフォームにも統合され、Tencent の社内外のビジネスで広く使用されています。 次に、共同プロジェクトチームは、機械学習プラットフォームの使いやすさ、トレーニング、推論パフォーマンスをさらに向上させ、安定的で使いやすく、便利で効率的なプラットフォームとサービスを構築し、アルゴリズムエンジニアに強力な機械学習ツールを提供し、各分野のユーザーのビジネス発展を支援します。 |
<<: 2020年テンセントグローバルデジタルエコシステムカンファレンスが9月に開催予定:クラウドへの移行は初めて、デジタル経済の新たなトレンドを解釈
>>: アリババクラウドの収益は上半期に急増し、ディントークとクラウドは化学反応を起こした
米国の著名なDDoS防御データセンターであるSharktechは現在、デュアルコアIntel Xeo...
Admin5 Webmaster Network は 3 月 8 日、A5 SEO Diagnosi...
李延紅、中国人民政治協商会議全国委員会委員、百度会長兼CEO 張金東、中国人民政治協商会議全国委員会...
今日は、AndroidマーケットにおけるHuawei App Marketの新パッケージが、どのよう...
ウェブサイトのタイトルのキーワード設定は、SEO の方向性を決定しますが、多くの人がキーワードの選択...
パソコンやインターネットに続き、クラウドコンピューティングが IT 業界に新たな改革の波を起こしまし...
昨夜、百度は大きなアップデートを行いました。多くのウェブマスターが私と同じように夜が明けるのを心待ち...
Godaddy - 初回注文で 65% オフの割引コード、6 月 25 日に期限切れになります!左の...
月収10万元の起業の夢を実現するミニプログラム起業支援プランビジネスを始めるのは簡単だが、成功するの...
北京時報(王盛記者)このほど、北京で「中国ネット動画著作権侵害対策共同行動」が正式に開始された。この...
「世界は長い分裂の期間の後、最終的には統一され、長い統一の期間の後、最終的には分裂する」という古い格...
南都ニュース記者李星星:東莞のインターネットの「兄貴分」115クラウドディスクが最近、最前線に躍り出...
重要なヒント:人々があなたのウェブサイトを見つけてリンクすると、ウェブサイトへのリンクの数は徐々に増...
Sina Wirelessの収益は前年比で減少NetEase Technology Newsは12月...
quickclickhosting は 2011 年に英国ロンドンで設立され、企業として運営されてい...