最近、アリババクラウドPAIチームとDAMOアカデミーインテリジェントコンピューティングラボは、巨大モデルM6の「低炭素バージョン」を共同でリリースしました。これにより、数兆個のパラメータを持つ超大規模モデルのトレーニングのエネルギー消費が大幅に削減されます。当社が独自に開発した Whale フレームワークの助けを借りて、わずか 480 枚の GPU カードを使用して、人間のニューロンの 10 倍の大きさである 1 兆パラメータのマルチモーダル大規模モデル M6 をトレーニングしました。従来の海外企業が達成した兆パラメータ規模と比較すると、エネルギー消費量は80%以上削減され、効率は11倍近く向上しました。 M6は中国で商品化された初の大型マルチモーダルモデルです。 M6 は従来の AI を超える認知能力と創造力を備えています。絵を描くこと、書くこと、質疑応答が得意です。電子商取引、製造、文学、芸術など、多くの分野で幅広い応用が期待されています。 ここでは、1兆パラメータのモデルトレーニングをサポートするWhaleフレームワークの設計を紹介します。 1. モデル開発の動向と課題1. モデル開発動向ディープラーニングの普及に伴い、モデルのパラメータサイズも急速に増加しました。 OpenAI のデータは次のことを示しています:
過去 1 年間で、モデル パラメータの規模は急速に拡大しました。 Google、NVIDIA、Alibaba、ARIはいずれも兆単位のパラメータを持つモデルをリリースしており、大手企業の中には数百億、数千億のパラメータを持つモデルをリリースしているところもあります。同時に、モデルパラメータの規模が大きくなるにつれて、モデル効果も徐々に向上しています。 Nvidia は Bert モデルのさまざまなパラメータ スケールをテストし、モデル パラメータのスケールが増加するにつれてモデルの困惑度が減少することを発見しました。 Google は GShard の論文で、MoETransformer モデルのパラメータが大きいほど翻訳の品質が高くなることを発見しました。 2. 大規模モデルトレーニングの課題大規模なモデルはモデルのパフォーマンスを向上させますが、トレーニング フレームワークに大きな課題をもたらします。たとえば、1兆規模のモデルをトレーニングする場合、次のような課題に直面します。
現在、Horovod、Tensorflow Estimator、PyTorch DDP など、データ並列処理をサポートする分散トレーニング フレームワークがいくつかあります。パイプラインの並列処理をサポートする Gpipe、PipeDream、PipeMare など。演算子分割をサポートする Mesh Tensorflow、FlexFlow、OneFlow、MindSpore など。ただし、これらのフレームワークにはまだいくつかの欠点があります。
分散トレーニングの現在の課題に対処するために、私たちは以下の主な目標を掲げて分散トレーニング フレームワーク Whale を開発しました。
2. PAIが独自に開発したWhaleフレームワーク1. クジラの建築私たちは、複数の並列戦略を統合し、次のような観点から分散トレーニングの課題に対処する高性能な分散トレーニング フレームワークである Whale をリリースしました。
Whale フレームワークは下図のとおりで、主に 4 つのモジュールに分かれています。
2. クジラの紹介 使いやすいインターフェースWhale は、さまざまな並列戦略を記述するための簡潔で使いやすいインターフェースを提供します。主なプリミティブは次のとおりです。
これらのインターフェースを使用すると、次のようなさまざまな並列戦略を組み合わせることができます。
パイプライン並列処理 + データ並列処理: その他の並列戦略の例: 3. クジラの訓練プロセスWhale を使用した分散トレーニング プロセス:
3. 兆M6モデルの事前トレーニング1兆ドルモデルには膨大な計算能力が必要です。計算能力の要件を削減するために、Whale は MoE (Mixture-of-Experts) 構造を実装します。 MoE の主な特徴はスパース活性化です。ゲーティング (ルーター) は、入力計算の上位 k 人のエキスパート (k は通常 1 または 2) を選択するために使用され、計算能力の要件が大幅に削減されます。 Whale は MoE (Mixture-of-Experts) レイヤーを実装し、エキスパートの並列処理をサポートし、エキスパートを複数のデバイスに分割して、単一デバイスのメモリと計算能力の要件を削減します。同時に、データの並列処理はトレーニングの同時実行性の向上に役立ちます。そのため、M6 モデルのトレーニングには、データ並列処理とエキスパート並列処理を組み合わせたハイブリッド並列戦略が採用されています。MoElayer はエキスパート並列処理を採用し、他のレイヤーはデータ並列処理を採用しています。 Whale は、モデルのハイブリッド並列トレーニングのためのシンプルで使いやすいインターフェースを提供します。並列戦略を構成するには、数行の注釈を追加するだけでよく、モデル自体を変更する必要はありません。 M6モデルは、データ並列処理+エキスパート並列処理の戦略を採用しています。次の注釈を追加するだけです。 同時に、トレーニング リソースを節約し、トレーニング効率を向上させるために、Whale はさまざまな最適化テクノロジを提供します。 ビデオメモリの最適化:
コンピューティングと通信の高速化:
IV.結論モデルパラメータの規模はますます大きくなり、大規模モデルが開発トレンドとなってきました。超大規模モデルのトレーニングの課題に対処するために、私たちは独自の Whale フレームワークを開発しました。このフレームワークは、さまざまな並列化戦略を統一された方法で抽象化およびカプセル化し、分散トレーニング フレームワークで複数の並列化戦略をサポートします。 Whale はシンプルで使いやすいインターフェースを提供します。ユーザーは、モデル自体を変更することなく、数行の注釈を追加するだけでさまざまな並列戦略を実装できます。同時に、ハードウェア リソース、ネットワーク トポロジ、モデルを組み合わせてハードウェアとソフトウェアを最適化し、効率的な分散トレーニング フレームワークを提供します。 Whaleフレームワークを通じて、480枚のV100 GPUカードを使用して1兆規模のモデルをトレーニングし、3日以内にモデルトレーニングの収束を完了し、超大規模モデルトレーニングの実装を可能にしました。今後はWhaleフレームワークをさらに改良し、大規模化、高速化、コスト効率の向上という3つの側面から機能を拡張していきます。同時に、より多くのビジネス シナリオで Whale 機能の実装を促進し、技術機能から製品機能への変革を可能にします。 |
<<: クラウドネイティブの進化のトレンドにおける従来のデータベースアップグレードの実践
>>: Longhorn クラウドネイティブ分散ブロックストレージソリューションの設計アーキテクチャとコンセプト
インターネット上の多くの SEO「専門家」は、ウェブサイトの Baidu スナップショットはウェブサ...
2020 年のクラウド コンピューティング市場は全体として「クラウドへの急成長」と言えますが、過去 ...
technetcal.com は、香港に直接接続する高速 VPS サービスの提供を開始しました。Op...
「百度は狂っているのか?」というフレーズが、私たちの目の前に頻繁に現れているようだ。正直に言うと、見...
virmach.com のブラックフライデーからサイバーマンデーまでの特別セールを更新しました。上部...
企業はクラウド コンピューティングの利点だけを考慮するべきではありません。クラウド コンピューティン...
新華社によると、浙江省金華市中級人民法院は11月1日、国内最大のオンラインねずみ講事件である「万家シ...
BaiduがオリジナルのSpark Planを発表し始めてから、ウェブサイトのコンテンツの品質が非常...
vandweb.com は 2001 年に設立された台湾のホスティング会社です。その事業内容には、仮...
[[431290]]私は何一つ得意ではないのですが、小説を読むのが一番得意です。ほら、いい記事を書い...
過去10年間の電子商取引の発展により、無数の電子商取引プラットフォームが台頭してきました。無料は電子...
Vultr はオセアニア、具体的にはオーストラリアのメルボルンとシドニーにもデータセンターを提供して...
昨日はヴァンクルの5周年記念セールの日だったが、朝からウェブサイトが麻痺し、ウェブページを開くことが...
onetechcloud は最新の VPS プロモーションを開始しました。米国 CN2 GIA、米国...
2月に入り、米国株の新たな決算シーズンが最高潮を迎えています。火曜日、アリババ、アマゾン、グーグルな...