クラウドネイティブは、大規模モデルの「コスト削減と効率性の向上」に対する解毒剤となるのでしょうか?

過去 1 ～ 2 年で、GPT や拡散モデルに代表される大規模言語モデルと生成 AI は、AI に対する人々の期待を新たな高みに押し上げ、何千もの業界が大規模モデルをビジネスに活用しようとするようになりました。

国内の大手メーカーは、文心大型モデル、同義千文、渾源大型モデル、盤古大型モデルなど、大型モデルの分野で熾烈な軍拡競争を繰り広げています。これらの超大規模モデルのトレーニングパラメータはいずれも1000億を超え、中には1兆を超えるものもあります。

数千億のパラメータを持つモデルをトレーニングするコストは数百万ドルにも達する可能性がありますが、大企業は依然として最善を尽くしています。さらに、多くの業界企業も自社専用の大型モデルを持つことを望んでいます。

企業がビッグモデルの競争に勝ち抜くためには、コンピューティングパワーを最大限に活用し、効率的で安定したサービス運用環境を構築する必要があり、ITインフラストラクチャ機能に対する要求がさらに高まります。

そして、クラウドネイティブは競争の重要な部分です。クラウドネイティブテクノロジーの自動展開と管理、柔軟なスケーリングなどの機能により、大規模なモデルアプリケーションの効率を効果的に向上させ、コストを削減できます。

ガートナーの予測によると、2023年にはAIアプリケーションの70%がコンテナとサーバーレス技術に基づいて開発される見込みです。実際の運用では、自動運転やNLPなど、ますます多くのAIビジネスがコンテナ化されたデプロイメントに移行しています。

では、クラウドネイティブはどのようにして大規模モデルのコスト削減と効率性の向上に役立つのでしょうか。また、その過程でどのような課題に直面したのでしょうか。

1. クラウドネイティブが大規模モデルの標準になる

近年、コンテナと Kubernetes は、ますます多くの AI アプリケーションで好まれる動作環境およびプラットフォームになっています。

一方では、Kubernetes は、ユーザーが異種リソースとランタイム環境を標準化し、運用および保守プロセスを簡素化するのに役立ちます。一方、GPU に大きく依存する AI などのシナリオでは、K8s の弾力性を活用してリソースコストを節約できます。

ビッグモデルの波の到来により、クラウドネイティブ環境で AI アプリケーションを実行することが事実上の標準になりつつあります。

弾力的なスケーリングとリソース管理

大規模なモデルのトレーニングには、多くの場合、大量のコンピューティングリソースが必要になりますが、クラウドネイティブ環境では、コンテナ化とオーケストレーションツールを通じて、リソースの柔軟なスケジューリングと自動スケーリングを実現できます。

つまり、大規模モデルのトレーニング中に必要なリソースを迅速に取得し、タスクの完了後に解放することで、アイドルコストを削減できます。

分散コンピューティングのサポート

クラウドネイティブアーキテクチャは、当然のことながら分散システムをサポートします。大規模モデルのトレーニング中の並列コンピューティング要件は、クラウド上の分散クラスターを通じて簡単に達成できるため、モデルの収束が加速されます。

マイクロサービスアーキテクチャとモジュール設計

大規模なモデル推論サービスは、前処理サービス、モデル読み込みサービス、後処理サービスなど、複数のマイクロサービスに分解できます。これらのサービスは、クラウドネイティブ環境で個別に展開、アップグレード、拡張できるため、システムの保守性と反復効率が向上します。

継続的インテグレーション/継続的デプロイメント (CI/CD)

クラウドネイティブのコンセプトでは、迅速な反復と自動化された運用と保守が重視されます。 CI/CD プロセスを利用することで、大規模モデルの R&D チームは、モデル更新の俊敏性を確保するために、より効率的な方法でモデルバージョンを構築、テスト、展開できます。

ストレージとデータ処理

クラウドネイティブは、大規模なモデルに必要な大規模なデータの読み取りと書き込みの問題を解決するために、さまざまなデータ永続性および一時ストレージソリューションを提供します。

同時に、クラウド上のビッグデータ処理機能とストリーミングコンピューティング機能を使用して、大規模データの前処理と後処理を効果的に行うことができます。

可観測性と障害回復

クラウドネイティブ環境では、監視、ログ、トレース機能が向上し、大規模なモデルサービスの状態がより透明化されます。問題が発生した場合、より迅速に問題を特定して修復できるため、高いサービス可用性が確保されます。

一般に、クラウドネイティブアーキテクチャの多くの利点は、計算量、データ駆動型、頻繁な反復という点で、大規模モデルの要件を満たします。大規模モデルにコスト、パフォーマンス、効率などの面で価値をもたらすことができるため、大規模モデルの開発の標準となります。

2. 大規模モデルはクラウドネイティブ機能に新たな課題をもたらす

クラウドネイティブは大規模モデルには当然の利点がありますが、LLM や AIGC などの新しい分野では、クラウドネイティブ機能にさらなる課題が生じています。

トレーニング段階では、大規模なモデルではコンピューティング、ストレージ、ネットワーク、その他のインフラストラクチャに対する要件が高くなります。

規模の点では、広範な知識と専門的なドメイン理解および推論機能を備えた大規模な言語モデルをトレーニングするには、多くの場合、最大 10,000 枚のカードの GPU クラスター、PB レベルのデータストレージ、TB レベルのデータスループットが必要になります。

さらに、高性能ネットワークでは、1 台のマシンで 800Gbps、さらには 3.2Tbps の RDMA 相互接続も実現します。

パフォーマンスの面では、モデルのサイズとパラメータの数が増えると、単一のグラフィックカードではモデル全体をサポートできなくなります。したがって、分散トレーニングには複数のグラフィックカードを使用し、高速化のためにさまざまなハイブリッド並列戦略を採用する必要があります。

これらの戦略には、データ並列性、モデル並列性、パイプライン並列性、言語モデルのシーケンス並列性、およびさまざまな複雑な組み合わせ戦略が含まれます。

推論フェーズでは、大規模モデルは効率的で安定した推論サービスを提供する必要があり、そのためにはパフォーマンスを継続的に最適化し、サービス品質 (QoS) を保証することが必要です。

これを踏まえて、最も重要な目標は、リソース効率とエンジニアリング効率を向上させることです。一方で、リソースの利用効率を継続的に向上させ、突発的なコンピューティングニーズに対応するためにリソース規模を弾力的に拡大していきます。

一方で、アルゴリズム担当者の作業効率を最適化し、モデルの反復の速度と品質を向上させる必要があります。

これは、大規模なモデルがクラウドネイティブテクノロジーに新しい機能要件を提示していることを示しています。

まず、異種リソースを統合管理してリソースの利用率を向上させます。

異種リソース管理の観点からは、IaaS クラウドサービスや IDC 内のさまざまな異種コンピューティング (CPU、GPU、NPU、VPU、FPGA、ASIC など)、ストレージ (OSS、NAS、CPFS、HDFS)、ネットワーク (TCP、RDMA) リソースを抽象化し、管理、運用、保守、割り当てを統一し、弾力性とソフトウェアとハードウェアの連携最適化を通じてリソース使用率を継続的に向上させます。

運用および保守プロセスでは、監視、ヘルスチェック、アラーム、自己修復などの自動化された運用および保守機能を含む、異種リソースの多次元的な観測可能性が必要です。

GPU や NPU などのアクセラレータなどの貴重なコンピューティングリソースについては、さまざまなスケジューリング、分離、共有の方法を通じて、その使用率を最大化する必要があります。

このプロセスでは、クラウドリソースの弾力的な特性を継続的に活用し、リソースの配信と利用の効率を継続的に向上させることも必要です。

第二に、統一されたワークフローとスケジューリングにより、AIやビッグデータなどのさまざまな複雑なタスクの効率的な管理が可能になります。

大規模な分散 AI タスクでは、ギャングスケジューリング、キャパシティスケジューリング、トポロジ認識スケジューリング、優先キューなどのさまざまなタスクスケジューリング戦略を提供し、ワークフローまたはデータフローを使用してタスクパイプライン全体を接続する必要があります。

同時に、さまざまな異種ワークロードプロセスを均一に実行し、ジョブライフサイクルを均一に管理し、タスクのスケールとパフォーマンスを確保するためにタスクワークフローを均一にスケジュールするために、Tensorflow、Pytorch、Horovod、ONNX、Spark、Flinkなどのさまざまなコンピューティングエンジンやランタイムと互換性がある必要があります。

一方で、実行中のタスクのコスト効率を継続的に改善し、他方では、開発および運用の経験とエンジニアリングの効率を継続的に改善しています。

さらに、コンピューティングフレームワークとアルゴリズムレベルでリソースの弾力性機能を適応させ、弾力性のあるトレーニングと弾力性のある推論サービスを提供して、タスクの全体的な運用コストを最適化します。

コンピューティングタスクの最適化に加えて、データ使用効率の最適化にも注意を払う必要があります。そのためには、統合されたデータセット管理、モデル管理、アクセスパフォーマンス最適化機能が必要であり、標準 API とオープンアーキテクチャを通じてビジネスアプリケーションに簡単に統合できる必要があります。

大規模モデルのもう 1 つの主要な機能は、開発環境とクラスターテスト環境を数分以内に準備し、アルゴリズムエンジニアがディープラーニングタスクの実行を開始できるようにすることです。

同じプログラミングモデルと運用および保守方法を通じて、エンドツーエンドの AI 制作プロセスを実現します。

3. 結論

ビッグモデルなどの AI テクノロジーの継続的な発展に伴い、クラウドネイティブテクノロジーはいくつかの新たな課題と要求に直面することになります。たとえば、新しいオープンソースの大規模モデルトレーニング方法に迅速に適応する方法や、大規模モデルの推論パフォーマンスを向上させてその品質と安定性を確保する方法などです。

同時に、最先端のテクノロジーと革新的な機能にも注目し、標準化されたプログラム可能な方法を通じてそれらを統合し、ビジネスアプリケーションを継続的に反復し、AI + または LLM + の新しいアプリケーション開発モードとプログラミングモデルを形成する必要があります。

しかし、テクノロジーがどのように発展しても、大規模モデルに対して高速、正確、安定的かつコスト管理されたサービスを提供し、大規模モデルのトレーニングと推論のコスト、パフォーマンス、効率性を確保することが、企業がその価値に支払う基準となるでしょう。

<<: Microsoft Sustainability Cloud が新たなデータと AI 機能を追加

>>: トマゴ・アルミニウムがクラウドへの取り組みで方針を変えた理由