クラウド ネイティブは、大規模モデルの「コスト削減と効率性の向上」に対する解毒剤となるのでしょうか?

クラウド ネイティブは、大規模モデルの「コスト削減と効率性の向上」に対する解毒剤となるのでしょうか?

過去 1 ~ 2 年で、GPT や拡散モデルに代表される大規模言語モデルと生成 AI は、AI に対する人々の期待を新たな高みに押し上げ、何千もの業界が大規模モデルをビジネスに活用しようとするようになりました。

国内の大手メーカーは、文心大型モデル、同義千文、渾源大型モデル、盤古大型モデルなど、大型モデルの分野で熾烈な軍拡競争を繰り広げています。これらの超大規模モデルのトレーニングパラメータはいずれも1000億を超え、中には1兆を超えるものもあります。

数千億のパラメータを持つモデルをトレーニングするコストは数百万ドルにも達する可能性がありますが、大企業は依然として最善を尽くしています。さらに、多くの業界企業も自社専用の大型モデルを持つことを望んでいます。

企業がビッグモデルの競争に勝ち抜くためには、コンピューティングパワーを最大限に活用し、効率的で安定したサービス運用環境を構築する必要があり、ITインフラストラクチャ機能に対する要求がさらに高まります。

そして、クラウド ネイティブは競争の重要な部分です。クラウドネイティブ テクノロジーの自動展開と管理、柔軟なスケーリングなどの機能により、大規模なモデル アプリケーションの効率を効果的に向上させ、コストを削減できます。

ガートナーの予測によると、2023年にはAIアプリケーションの70%がコンテナとサーバーレス技術に基づいて開発される見込みです。実際の運用では、自動運転やNLPなど、ますます多くのAIビジネスがコンテナ化されたデプロイメントに移行しています。

では、クラウド ネイティブはどのようにして大規模モデルのコスト削減と効率性の向上に役立つのでしょうか。また、その過程でどのような課題に直面したのでしょうか。

1. クラウドネイティブが大規模モデルの標準になる

近年、コンテナと Kubernetes は、ますます多くの AI アプリケーションで好まれる動作環境およびプラットフォームになっています。

一方では、Kubernetes は、ユーザーが異種リソースとランタイム環境を標準化し、運用および保守プロセスを簡素化するのに役立ちます。一方、GPU に大きく依存する AI などのシナリオでは、K8s の弾力性を活用してリソース コストを節約できます。

ビッグモデルの波の到来により、クラウドネイティブ環境で AI アプリケーションを実行することが事実上の標準になりつつあります。

  • 弾力的なスケーリングとリソース管理

大規模なモデルのトレーニングには、多くの場合、大量のコンピューティング リソースが必要になりますが、クラウド ネイティブ環境では、コンテナ化とオーケストレーション ツールを通じて、リソースの柔軟なスケジューリングと自動スケーリングを実現できます。

つまり、大規模モデルのトレーニング中に必要なリソースを迅速に取得し、タスクの完了後に解放することで、アイドル コストを削減できます。

  • 分散コンピューティングのサポート

クラウドネイティブ アーキテクチャは、当然のことながら分散システムをサポートします。大規模モデルのトレーニング中の並列コンピューティング要件は、クラウド上の分散クラスターを通じて簡単に達成できるため、モデルの収束が加速されます。

  • マイクロサービスアーキテクチャとモジュール設計

大規模なモデル推論サービスは、前処理サービス、モデル読み込みサービス、後処理サービスなど、複数のマイクロサービスに分解できます。これらのサービスは、クラウド ネイティブ環境で個別に展開、アップグレード、拡張できるため、システムの保守性と反復効率が向上します。

  • 継続的インテグレーション/継続的デプロイメント (CI/CD)

クラウド ネイティブのコンセプトでは、迅速な反復と自動化された運用と保守が重視されます。 CI/CD プロセスを利用することで、大規模モデルの R&D チームは、モデル更新の俊敏性を確保するために、より効率的な方法でモデル バージョンを構築、テスト、展開できます。

  • ストレージとデータ処理

クラウド ネイティブは、大規模なモデルに必要な大規模なデータの読み取りと書き込みの問題を解決するために、さまざまなデータ永続性および一時ストレージ ソリューションを提供します。

同時に、クラウド上のビッグデータ処理機能とストリーミングコンピューティング機能を使用して、大規模データの前処理と後処理を効果的に行うことができます。

  • 可観測性と障害回復

クラウドネイティブ環境では、監視、ログ、トレース機能が向上し、大規模なモデル サービスの状態がより透明化されます。問題が発生した場合、より迅速に問題を特定して修復できるため、高いサービス可用性が確保されます。

一般に、クラウド ネイティブ アーキテクチャの多くの利点は、計算量、データ駆動型、頻繁な反復という点で、大規模モデルの要件を満たします。大規模モデルにコスト、パフォーマンス、効率などの面で価値をもたらすことができるため、大規模モデルの開発の標準となります。

2. 大規模モデルはクラウドネイティブ機能に新たな課題をもたらす

クラウド ネイティブは大規模モデルには当然の利点がありますが、LLM や AIGC などの新しい分野では、クラウド ネイティブ機能にさらなる課題が生じています。

トレーニング段階では、大規模なモデルではコンピューティング、ストレージ、ネットワーク、その他のインフラストラクチャに対する要件が高くなります。

規模の点では、広範な知識と専門的なドメイン理解および推論機能を備えた大規模な言語モデルをトレーニングするには、多くの場合、最大 10,000 枚のカードの GPU クラスター、PB レベルのデータ ストレージ、TB レベルのデータ スループットが必要になります。

さらに、高性能ネットワークでは、1 台のマシンで 800Gbps、さらには 3.2Tbps の RDMA 相互接続も実現します。

パフォーマンスの面では、モデルのサイズとパラメータの数が増えると、単一のグラフィック カードではモデル全体をサポートできなくなります。したがって、分散トレーニングには複数のグラフィック カードを使用し、高速化のためにさまざまなハイブリッド並列戦略を採用する必要があります。

これらの戦略には、データ並列性、モデル並列性、パイプライン並列性、言語モデルのシーケンス並列性、およびさまざまな複雑な組み合わせ戦略が含まれます。

推論フェーズでは、大規模モデルは効率的で安定した推論サービスを提供する必要があり、そのためにはパフォーマンスを継続的に最適化し、サービス品質 (QoS) を保証することが必要です。

これを踏まえて、最も重要な目標は、リソース効率とエンジニアリング効率を向上させることです。一方で、リソースの利用効率を継続的に向上させ、突発的なコンピューティングニーズに対応するためにリソース規模を弾力的に拡大していきます。

一方で、アルゴリズム担当者の作業効率を最適化し、モデルの反復の速度と品質を向上させる必要があります。

これは、大規模なモデルがクラウド ネイティブ テクノロジーに新しい機能要件を提示していることを示しています。

まず、異種リソースを統合管理してリソースの利用率を向上させます。

異種リソース管理の観点からは、IaaS クラウド サービスや IDC 内のさまざまな異種コンピューティング (CPU、GPU、NPU、VPU、FPGA、ASIC など)、ストレージ (OSS、NAS、CPFS、HDFS)、ネットワーク (TCP、RDMA) リソースを抽象化し、管理、運用、保守、割り当てを統一し、弾力性とソフトウェアとハ​​ードウェアの連携最適化を通じてリソース使用率を継続的に向上させます。

運用および保守プロセスでは、監視、ヘルスチェック、アラーム、自己修復などの自動化された運用および保守機能を含む、異種リソースの多次元的な観測可能性が必要です。

GPU や NPU などのアクセラレータなどの貴重なコンピューティング リソースについては、さまざまなスケジューリング、分離、共有の方法を通じて、その使用率を最大化する必要があります。

このプロセスでは、クラウド リソースの弾力的な特性を継続的に活用し、リソースの配信と利用の効率を継続的に向上させることも必要です。

第二に、統一されたワークフローとスケジューリングにより、AIやビッグデータなどのさまざまな複雑なタスクの効率的な管理が可能になります。

大規模な分散 AI タスクでは、ギャング スケジューリング、キャパシティ スケジューリング、トポロジ認識スケジューリング、優先キューなどのさまざまなタスク スケジューリング戦略を提供し、ワークフローまたはデータ フローを使用してタスク パイプライン全体を接続する必要があります。

同時に、さまざまな異種ワークロードプロセスを均一に実行し、ジョブライフサイクルを均一に管理し、タスクのスケールとパフォーマンスを確保するためにタスクワークフローを均一にスケジュールするために、Tensorflow、Pytorch、Horovod、ONNX、Spark、Flinkなどのさまざまなコンピューティングエンジンやランタイムと互換性がある必要があります。

一方で、実行中のタスクのコスト効率を継続的に改善し、他方では、開発および運用の経験とエンジニアリングの効率を継続的に改善しています。

さらに、コンピューティング フレームワークとアルゴリズム レベルでリソースの弾力性機能を適応させ、弾力性のあるトレーニングと弾力性のある推論サービスを提供して、タスクの全体的な運用コストを最適化します。

コンピューティング タスクの最適化に加えて、データ使用効率の最適化にも注意を払う必要があります。そのためには、統合されたデータセット管理、モデル管理、アクセスパフォーマンス最適化機能が必要であり、標準 API とオープンアーキテクチャを通じてビジネスアプリケーションに簡単に統合できる必要があります。

大規模モデルのもう 1 つの主要な機能は、開発環境とクラスター テスト環境を数分以内に準備し、アルゴリズム エンジニアがディープラーニング タスクの実行を開始できるようにすることです。

同じプログラミング モデルと運用および保守方法を通じて、エンドツーエンドの AI 制作プロセスを実現します。

3. 結論

ビッグモデルなどの AI テクノロジーの継続的な発展に伴い、クラウド ネイティブ テクノロジーはいくつかの新たな課題と要求に直面することになります。たとえば、新しいオープンソースの大規模モデルトレーニング方法に迅速に適応する方法や、大規模モデルの推論パフォーマンスを向上させてその品質と安定性を確保する方法などです。

同時に、最先端のテクノロジーと革新的な機能にも注目し、標準化されたプログラム可能な方法を通じてそれらを統合し、ビジネス アプリケーションを継続的に反復し、AI + または LLM + の新しいアプリケーション開発モードとプログラミング モデルを形成する必要があります。

しかし、テクノロジーがどのように発展しても、大規模モデルに対して高速、正確、安定的かつコスト管理されたサービスを提供し、大規模モデルのトレーニングと推論のコスト、パフォーマンス、効率性を確保することが、企業がその価値に支払う基準となるでしょう。

<<:  Microsoft Sustainability Cloud が新たなデータと AI 機能を追加

>>:  トマゴ・アルミニウムがクラウドへの取り組みで方針を変えた理由

推薦する

hybula: オランダのクラウド サーバー、著作権侵害苦情、月額 15 ユーロ、2G メモリ/2 コア/25g NVMe/5T トラフィック/480G 防御

hybula は、2009 年に設立されたオランダのクラウド サーバー プロバイダー (VAT NL...

マーケティングウェブサイトでは1日あたり1万件以上の注文があるが、売上は期待どおりではない

企業のマーケティング手法は、もはや従来の手法を単純に採用するものではなく、ますます多くのマーケティン...

バイトダンスが百度の中心地に進出:元360検索プロダクトマネージャーを引き抜き、検索の商業化を開始

今日頭条の親会社であるバイトダンスは、検索分野への参入を加速させている。バイトダンスに近い人物による...

モバイルインターネット時代のポータル復活の秘密

インターネットが中国に導入された日から、軽薄な風潮が蔓延している。毎年、数多くのモデルや製品が登場し...

クラウドベースの CI/CD プラットフォームを選択するにはどうすればよいでしょうか?

[[413408]]この記事はWeChat公式アカウント「新チタンクラウドサービス」から転載したもの...

Google+ の企業ブランド ページを Google SERP に含めることは独占に関係しますか?

世界のトップ 100 社のうち 77 社がすでに Google+ ブランド ページを持っています。 ...

天使戴志康:1000倍のリターンの秘訣は、100万元の預金を半分に分けること

2013年、Boyaa Interactiveの上場により戴志康は4億人民元の帳簿利益を獲得し、「L...

滴滴出行の補助金戦争!

最近、滴滴出行の大規模事業は大きな注目を集めており、旅行の垂直分野において自社にとっての「ライバル」...

エッジコンピューティングの課題にどう対処するか

エッジ コンピューティングを、データ取得やローカル デジタル プロセス制御の高度な形式と見なす人もい...

おすすめ: Ramnode - 永久60%割引コード/有効期限なし

HostCatは、国内のネットユーザー向けに、長期的かつタイムリーに更新されるホスト情報ウェブサイト...

Linode ライブマイグレーションの説明

開発者がクラウド コンピューティング プラットフォームにワークロードを展開する場合、多くの場合、これ...

CHINAZウェブマスターツールが主流のSEOツールとなった理由の比較分析

Baiduでキーワードウェブマスターツールを検索すると、CHINAZウェブマスターツール(以下、ウェ...

アプリ市場でASOを最適化するためのヒント

App Store 最適化 (略して ASO) は、開発者のアプリが App Store でユーザー...

テストスキルの向上 - k8s のコアコンセプト

この記事では、k8s に関係する中核的な概念に焦点を当てています。これにより、読者は全体的な観点から...