IBMは、数百億のパラメータを持つモデルを柔軟に展開およびトレーニングするためのクラウドネイティブAIスーパーコンピューターVelaを開発しました。

IBMは、数百億のパラメータを持つモデルを柔軟に展開およびトレーニングするためのクラウドネイティブAIスーパーコンピューターVelaを開発しました。

ChatGPTはインターネット上で人気を博しており、その背後にあるAIモデルのトレーニングも広く注目を集めています。 IBM Research は最近、クラウドネイティブのスーパーコンピューター Vela を迅速に導入し、基本的な AI モデルのトレーニングに使用できると発表しました。 2022年5月以来、同社の何十人もの研究者がこのスーパーコンピューターを使用して、数百億のパラメータを持つAIモデルのトレーニングを行っている。

ベースモデルは、大量のラベルなしデータでトレーニングされた AI モデルであり、その汎用性により、わずかな調整を行うだけでさまざまなタスクに使用できます。これらは非常に大規模に拡張され、膨大で高価な計算能力を必要とします。そのため、専門家が言うように、次世代の大規模基本モデルの開発においてはコンピューティング能力が最大のボトルネックとなり、そのトレーニングには多大なコンピューティング能力と時間が必要になるだろう。

数百億から数千億のパラメータを実行できるモデルのトレーニングには、ネットワーク、並列ファイルシステム、ベアメタルノードなどの高性能コンピューティング ハードウェアが必要です。このハードウェアは導入が難しく、運用コストもかかります。 Microsoft は 2020 年 5 月に OpenAI 向けの AI スーパーコンピューターを構築し、Azure クラウド プラットフォームでホストしました。しかし、これらはハードウェア駆動型であるため、コストが増大し、柔軟性が制限されるとIBMは述べている。

クラウドAIスーパーコンピュータ

そこでIBMは、「特に大規模なAIに焦点を当てた」Velaと呼ばれるシステムを開発した。

Vela は、必要に応じて任意の IBM クラウド データ センターに導入でき、それ自体が「仮想クラウド」です。このアプローチでは、物理的なスーパーコンピューターを構築する場合と比べて計算能力が多少低下しますが、より柔軟なソリューションが作成されます。クラウド コンピューティング ソリューションは、API インターフェースを通じてエンジニアにリソースを提供し、より深い統合のための広範な IBM クラウド エコシステムへの容易なアクセスと、必要に応じてパフォーマンスを拡張する機能を提供します。

IBM のエンジニアは、Vela はカスタム ストレージ バックエンドを構築するのではなく、IBM Cloud Object Storage 上のデータ セットにアクセスできると説明しました。これまでは、このインフラストラクチャをスーパーコンピューターに別途構築する必要がありました。

あらゆる AI スーパーコンピューターの主要コンポーネントは、多数の GPU とそれらを接続するノードです。 Vela は実際には各ノードを(ベアメタル マシンではなく)仮想マシンとして構成します。これは最も一般的な方法であり、AI トレーニングに最も理想的な方法であると広く考えられています。

Vela はどのように構築されていますか?

クラウド仮想コンピュータの欠点の 1 つは、パフォーマンスが保証されないことです。パフォーマンスの低下に対処し、仮想マシン内でベアメタル パフォーマンスを提供するために、IBM のエンジニアは、ノード (GPU、CPU、ネットワーク、ストレージを含む) のパフォーマンスを最大限に引き出し、負荷損失を 5% 未満に抑える方法を見つけました。

これには、仮想化用のベアメタル ホストの構成、VM 拡張機能、ラージ ページ、シングル ルート IO 仮想化のサポート、VM 内のすべてのデバイスと接続のリアルな表現が含まれます。これには、ネットワーク カードを CPU および GPU に一致させること、およびそれらを相互にブリッジする方法も含まれます。作業が完了すると、VM ノードのパフォーマンスが「ベアメタルに近い」ことがわかりました。

さらに、AI トレーニング データ、モデル、完成品をキャッシュするための大容量 GPU メモリと豊富なローカル ストレージを備えた AI ノードの設計にも取り組んでいます。 PyTorch を使用したテストでは、ワークロードの通信パターンを最適化することで、スーパーコンピューティングで使用される Infiniband などの高速ネットワークと比較して、比較的低速なイーサネット ネットワークのボトルネックも補うことができることがわかりました。

構成に関しては、各 Vela は 8 つの 80 GB A100 GPU、2 つの第 2 世代 Intel Xeon スケーラブル プロセッサー、1.5 TB のメモリ、4 つの 3.2 TB NVMe ハード ドライブを使用し、世界中の IBM クラウド データ センターにあらゆる規模で導入できます。

IBMのエンジニアは次のように述べている。「適切なツールとインフラストラクチャを持つことは、研究開発の効率を向上させるための重要な要素です。多くのチームは、AI向けに従来のスーパーコンピューターを構築するという実証済みの方法を選択しています...私たちは、高性能コンピューティングとハイエンドユーザーの生産性という2つの利点を提供する、より優れたソリューションに取り組んできました。」

<<:  エッジコンピューティングの導入を成功させるための 5 つの戦略

>>:  アリババクラウドの孫成浩氏:クラウドネットワーク統合の未来はインテリジェントクラウドネットワークにある

推薦する

検索エンジンと同期し、アルゴリズムの変更を心配する必要がなくなります

今日は SEO の考え方に関するいくつかの理論についてお話ししようと思います。なぜなら、Zhao Y...

I-83、年間 5.8 ドル / 256 MB RAM / 15 GB HDD / 100 MB 無制限

i-83.net は 年に設立されました。私はこの会社について調査したことがなく、背景について何も知...

インターネットプロモーションのためのフォーラムプロモーションスキル(I)

今日もまた水曜日です。今日は皆さんが外部リンクをもう少し増やし、Baidu スパイダーに自分のウェブ...

ご清聴ありがとうございました!

日曜日から私のブログがダウンしているのはなぜかと誰かが尋ねるかもしれません。隠すことは何もありません...

ウェブサイトのホームページの掲載をスピードアップする6つの秘訣

私のような草の根ウェブマスターの多くは、常に問題に悩まされてきました。それは、なぜ Baidu が自...

プライベートクラウドからハイブリッドクラウドへの移行は簡単ではない

今日、企業の IT プロフェッショナルは、クラウド コンピューティングの導入にはプライベート クラウ...

知っておくべき電子商取引マーケティングの10の暗黙のルール

今日、ネットの記事で、月給2万元の電子商取引業者が仕事を辞めてWeChat Momentsで商品を販...

ウェブサイトランキングとSEOの関係の分析

先日、昔の同級生と会って、現在の仕事について話しました。公務員もいれば、ビジネスマンも、管理職も、営...

Google ウェブマスター ツールのデータ エクスポートの文字化け問題を解決する

これはよく知られている SEO ツールです。これを使用すると SEO 効率を大幅に向上させることがで...

ワールドカップが始まります!ブランドマーケティングを行うには?マーケティングの準備はできていますか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています6月14日...

ウェブマスターがオンラインプロモーションで注意すべきいくつかの詳細

起業の道でまだ奮闘中のウェブマスターの皆さん、私は葉凡喜です。今日は、インターネットで奮闘する道で誰...

小紅書における美容業界のマーケティング動向の分析

小紅書の公式報告によると、2019年5月時点で、小紅書の登録ユーザー数は2億5000万人を突破した。...

ウェブサイトが友好的なリンクを交換する価値があるかどうかを分析する方法

多くの人、特に SEO 初心者は、フレンドリー リンクを交換する方法や、フレンドリー リンクを交換す...

クイックパケット-50USD/E3-1270/16GB RAM/1TB HDD/20TB フロー/G ポート/ロサンゼルス

quickpacket.com は確かに比較的長い歴史を持つホスティング会社です (2003 年設立...

マルチクラウドでクラウドへの野望を挫折させないでください

今日、人々は新興技術の焦点の変化に慣れてきており、クラウド コンピューティング技術も例外ではありませ...