大規模モデル分散並列技術 - データ並列最適化

大規模モデル分散並列技術 - データ並列最適化

コミュニケーションの融合

上記から、各モデル勾配はデータ並列処理で同期される必要があることがわかります。これは、プロセス間の Allreduce 通信を通じて実現されます。モデルに多数のパラメータがある場合、データ並列トレーニングの各ステップで多くの Allreduce 通信が発生します。次の図は、融合勾配同期の例です。

融合勾配同期の例

通信の時間消費は、通信遅延(ランテンシー)とデータ伝送時間消費の 2 つの側面から考えることができます。単一の通信の遅延時間は比較的固定されていますが、送信時間は通信のデータ量と帯域幅によって決まります。通信頻度を減らすことで、総通信消費量を削減できます。コミュニケーションの融合は実現可能な手段です。 N 勾配の Allreduce 通信を 1 つの Allreduce 通信にマージすることで、通信遅延時間を N-1 倍短縮できます。

一般的に使用される Allreduce 融合実装方法は、通信前に複数の勾配テンソルを連続したメモリ アドレスを持つ大きなテンソルに結合します。勾配同期中は、結合された大きなテンソルに対して 1 つの Allreduce 操作のみが実行されます。パラメータを更新する場合、大きなテンソルが分割され、複数の小さなテンソルに復元されて、各勾配に対応するパラメータの更新が完了します。

通信計算の重複

絶対的な通信時間消費を削減するだけでなく、全体的なトレーニング時間消費を削減するという観点から最適化することも可能です。通信とコンピューティングの非同期パイプライン実装を検討できます。データ並列処理における勾配同期 Allreduce 通信は、トレーニングの逆プロセスで実行され、Allreduce 後に得られた同期勾配はトレーニングの更新プロセスで使用されますが、逆プロセスでは使用されません。つまり、前の勾配の通信と次の勾配の計算の間には依存関係はありません。通信と計算を並行して実行できるため、両者の消費時間が重なり合ってカバーされ、逆方向の消費時間が短縮されます。次の図は、通信と計算が重なり合う並列処理の例を示しています

通信計算の並列オーバーラップの例。

通信と計算のオーバーラップは通常、通信演算子と計算演算子を異なるストリームにスケジュールすることによって実現されます。通信演算子は通信ストリームにスケジュールされ、計算演算子は計算ストリームにスケジュールされます。同じストリーム上の演算子は順番に実行されますが、異なるストリーム上の演算子は並列に実行できるため、勾配通信と逆方向の計算の並列オーバーラップが実現します。通信と計算が異なるストリームで実行されるようにスケジュールされている場合、2 つのストリーム間の依存関係と同期関係を考慮する必要があることに注意してください。

  • 勾配の Allreduce 通信が実行される前に、勾配の逆計算が完了しています。
  • 勾配に対応するパラメータの更新計算が開始される前に、勾配の Allreduce 通信が完了しています。

勾配同期のデータ並列シナリオでは、開発者はストリーム間の同期機能を使用して次の点を保証する必要があります。

上記の 2 つの方法は、通信時間の消費を削減し、並列加速率を向上させるために、データ並列処理で一般的に使用される最適化戦略です。通信とコンピューティングの重複が大きい​​ほど、データ並列加速率は 100% に近づき、トレーニング スループットの向上におけるマルチカード並列処理の効率が高まります。

<<:  クラウドって、何がそんなに高いんですか?

>>:  KEDA: K8Sアプリケーションのイベント駆動型拡張の徹底的な実践

推薦する

電子商取引管理措置導入に関する意見:個人オンラインストアは一時的に免税される可能性がある

新浪科技報、9月13日午後、国家工商行政管理総局は昨日、「オンライン商品取引及び関連サービスの管理に...

onetechcloud: すべての VPS が 20% オフ、最低 64 元/四半期、香港 cn2 vps、米国 cn2 gia vps (100G 以内の攻撃は数秒で解決可能)

onetechcloud は最新の 6 月の VPS プロモーションをリリースしました。香港 cn2...

海外「独立サーバー」レンタルのススメ:安い・安い・もっとお得に!

この投稿は主に海外サーバー(海外の低価格サーバー、超格安サーバー)を収集しており、コアはより人気のあ...

より多くの人に WeChat コンテンツをクリックしてもらうにはどうすればよいでしょうか?

初めて WeChat の公開アカウントをフォローしたときの興奮を今でも覚えています。毎日好きな記事が...

質問回答サイトQuoraは、評価額4億ドルで5000万ドルを調達する予定であると報じられている。

Quoraは現在従業員が30人しかいないが、評価額は4億ドルに達している。新浪科技報、北京時間4月2...

ユーラシアクラウド:香港 CN2/日本 CN2/米国 AS9929+CN2 GIA、21 元/月、199 元/年、2G メモリ/2 コア/20g SSD/1T トラフィック/50M 帯域幅

ユーラシアクラウドは現在、特別プロモーションを実施しており、クラウドサーバーを月額21元、年額199...

ドメイン名の管理権を悪意を持って占拠したウェブサイト構築会社からドメイン名の管理権を取り戻した体験談

ドメイン名の役割は自明です。本来の目的は、IPアドレスの代わりに通常の文字を入力して特定のウェブサイ...

【クラウドネイティブ】Kubernetes(k8s)ヘルスチェックの詳細解説と実践デモ(準備プローブと生存プローブ)

1. 概要Kubernetes のヘルスチェックは、主に準備プローブと生存プローブを使用して実装され...

crowncloud-30ドル/年払い/8コア/3gメモリ/50gハードディスク/3Tトラフィック/ロサンゼルス

crowncloud は、3G メモリを搭載した openvz ベースの特別版 VPS をリリースし...

価値あるSEO情報を入手する4つの方法

SEO 業界の人気に伴い、ウェブサイトの最適化とプロモーションに携わる人がますます増えています。しか...

若者がヘイティーの消費を600億にまで押し上げたのはなぜか?

新たな消費の波の下、インターネットの有名人から常緑樹まで、新しいお茶飲料は重要な節目を迎えている。今...

ウェブサイトを Baidu に素早くインデックス登録させるにはどうすればよいでしょうか?

ウェブマスターなら誰でも、このような経験をしたことがあるでしょう。一生懸命ウェブサイトを構築した後、...

cheapwindowsvps-無制限のトラフィックのWindows VPS/さまざまな特別なソフトウェアを実行できます

cheapwindowsvps は 2000 年から Windows VPS を主に運営してきました...

実稼働の実践: GlusterFS を使用して Kubernetes ストレージ ボリューム クラスターを構築する

GlusterFS を使用して Kubernetes クラスター用の信頼性の高いストレージ ソリュー...

今日頭条における若者の好みは何ですか?ユーザー調査レポート!

この記事は「今日頭条若者指数調査報告書」を皆さんと共有します。この報告書は、1. 今日頭条の若者の全...