UCloud AI Trainが一般公開テストを開始、インテリジェントな統合トレーニングプラットフォームを構築

UCloud AI Trainが一般公開テストを開始、インテリジェントな統合トレーニングプラットフォームを構築

最近、UCloud は UAI-Train インテリジェント統合トレーニング プラットフォームをリリースしました。 UCloudは、UAI-Service、GPU、Safe Houseなど、これまでに発売されたAIシリーズ製品と組み合わせることで、ワンストップのAIフルサービスを構築しました。

UAI-Train の柔軟で便利なトレーニング タスク ホスティング サービスは、ユーザーがリソースの調達や運用保守の煩わしさから解放され、AI 使用のハードルを下げるのに役立ちます。同時に、プラットフォームは従量課金モデルを採用し、AI コストの投資を削減し、アイドル リソースの無駄を回避します。

AIモデルトレーニングの問題点

人工知能産業の台頭により、人工知能技術はあらゆる分野で広く利用されるようになりました。近年、人工知能技術は、画像(物体認識、顔認識など)、自然言語(音声認識、翻訳、対話ロボット)、スマート医療、スマートレコメンデーション(広告、ニュース、動画)の分野で急速な進歩を遂げています。同時に、人工知能技術によるコンピューティングリソースの需要も急速に高まっており、「クラウドコンピューティングが人工知能産業の発展にどのように貢献できるか」がパブリッククラウドサービスの新たな方向性となっています。

一般的に、人工知能サービスの構築には、ビッグデータの収集と処理、AI モデルのトレーニング、AI モデルのオンライン サービスという 3 つのステップが含まれます。これらの各ステップには大量のコンピューティング リソースが必要です。

ビッグデータ処理の場合、一定数のクラウドホストまたは物理マシンを購入してデータ処理クラスターを構築するか、UHadoop 製品を使用して Hadoop または Spark クラスターを構築し、データを処理することができます。 AI オンライン サービスの場合、クラウド ホストを使用してサービス クラスターを構築するか、UCloud UAI サービスを直接使用することで、AI オンライン推論サービスを迅速に展開できます。

ただし、AI モデルのトレーニングでは、通常、AI モデルのトレーニング プロセス中に生成される膨大な浮動小数点コンピューティング要件を満たし、それに伴う多くの課題に対処するために、高性能の GPU リソースが必要になります。

◆ 高額な投資

GPU ハードウェアまたは GPU クラウド ホストの調達コストは非常に高くなります。 P40 GPUの購入価格は5万元以上です。 P40クラウドホストをレンタルした場合でも、コストは月額4,500元以上かかります。したがって、GPU ハードウェアを使用するための 1 回限りの投資コストは非常に高くなります。

◆ 遊休リソース

GPU を独自に購入すると、アイドルリソースなどの問題も発生します。 AI アルゴリズムの開発と反復の過程では、アルゴリズムの設計とデータ処理に多くの時間が必要になりますが、このとき、GPU デバイスは十分に活用できないためアイドル状態になることが多く、GPU の使用コストがさらに増加し​​ます。

◆ 調達サイクルが長い

GPU の調達および在庫サイクルは、通常の CPU サーバーよりも長くなります。パブリック クラウド サービスを使用する場合でも、CPU クラウド ホストのように、いつでもどこでも GPU クラウド ホストを購入して使用することはできません。

◆ 運用・保守コストが高い

ビジネスボリュームの増加に伴い、トレーニング環境の構成、GPU リソースのスケジュール設定、データ ストレージ、トレーニング タスクの災害復旧などの問題が増加し、GPU トレーニング クラスターのメンテナンスの運用コストと保守コストが継続的に増加します。

これらの問題は、AIビジネスに携わる企業が直面する課題が非常に深刻であることを示しています。 R&D 担当者は優れた AI アルゴリズム モデルとソリューションを持っているかもしれませんが、AI テクノロジの要件が高いため、R&D コストが増加し、R&D サイクルが長くなることがよくあります。

顧客が AI モデルのトレーニング プロセスで直面する 4 つの主要な問題を解決できるように、UCloud AI Train プラットフォームは UCloud の強力な GPU クラウド ホスト クラスター上に構築され、AI トレーニング タスクに十分なコンピューティング パワーを提供します。同時に、自動コンピューティングノードのスケジューリング、トレーニング環境の準備、データのアップロードとダウンロード、タスクの災害復旧など、ワンストップのトレーニングタスクホスティングサービスも提供しており、ユーザーは複雑な GPU リソースの調達、管理、運用と保守の作業から解放されます。さらに、UAI-Train プラットフォームは実際のコンピューティング消費量に応じて課金するため、GPU 投資のコストが削減されるだけでなく、アイドル リソースの無駄も回避されます。

インテリジェントな統合トレーニングプラットフォームの3つの主な利点

◆ ワンストップのタスクホスティングとリアルタイムのトレーニングステータス追跡

UAI-Train プラットフォームは、ワンストップのトレーニング タスク ホスティング サービスを提供します。ユーザーは、トレーニング タスクを送信してタスクが終了するのを待つために、パッケージ化されたトレーニング イメージ、データ ソース パス、データ出力パス、およびトレーニングに必要なパラメーターを指定するだけです。 UAI-Train プラットフォームは、GPU リソースのスケジューリング、データのダウンロードとアップロード、コンピューティング ノードの災害復旧を自動的に実行します。

同時に、UAI-Train プラットフォームは、グラフィカルなリアルタイム ログ出力と TensorBoard (Tensorflow および Keras で利用可能) のリアルタイム表示を提供し、ユーザーはブラウザーを通じてトレーニングの状況をリアルタイムで追跡できます。

◆ Dockerコンテナ技術をベースに、強力なAI互換性を実現

UAI Train は、Docker コンテナ テクノロジーをベースにした互換性の高いトレーニング環境を提供します。ユーザーは、AI モデルのトレーニング アルゴリズムを Docker イメージにパッケージ化し、トレーニング タスクをトレーニング プラットフォームに送信するだけで、次の処理が実行されます。

>>>> トレーニング データのダウンロード;

>>>> 訓練ミッションの実行;

>>>> トレーニング結果を出力して保存します。

ユーザーの介入はまったく必要ありません。全体のプロセスを下の図に示します。

UAI-Train プラットフォームの使用を簡素化するために、UCloud は、ユーザーが Docker イメージをパッケージ化できるように Python SDK と基本的な Docker イメージを提供します。現在、UAI-Train プラットフォームは、ワンクリック画像パッケージ化およびテストツール、基本画像など、4 つの主流 AI フレームワークをサポートしています (PyTorch や CNTK などのオープンソースフレームワークのサポートは将来追加される予定です)。

同時に、UAI Train プラットフォームはカスタム Docker トレーニング イメージもサポートし、cuda と cudnn がプリインストールされた基本イメージを提供します。

◆ 柔軟な構成オプション、高いコストパフォーマンス

UAI-Train プラットフォームは現在 3 種類の GPU ノードをサポートしており、オンデマンドで分単位で正確に課金されるため、コスト効率が非常に高くなります。

UAI-Train プラットフォームでは、新しい GPU デバイス、Xeon Phi デバイスなど、より豊富な種類のハードウェア アクセラレーション コンピューティング デバイスを段階的にリリースする予定であり、分散トレーニング クラスターのサポートも開始する予定です。

企業のAIビジネス開発を支援する4つのコアアプリケーションシナリオ

◆ 応用シナリオ1:急速なAI変革

AIモデルのトレーニングタスク実行環境の構成が複雑(GPUドライバー、AIフレームワーク環境のインストールなど)、GPUリソ​​ースの調達サイクルが長く、コストが高く、運用・保守作業が煩雑であることから、企業がAIビジネスを迅速に変革する上での障害となっていました。 UAI-Train トレーニングサービスを利用することで、リソースの調達、環境構成、クラスターのメンテナンスといった問題を気にすることなく、迅速に AI モデルのトレーニングを実施できます。

◆ 応用シナリオ2:AIコストの削減

AI トレーニング タスクを実行するには大量のコンピューティング リソースが必要です。 GPU ハードウェアの調達コストは高く、アイドル状態のリソースが無駄になり、莫大な費用が発生します。 UAI Train トレーニング サービスを使用すると、十分な GPU ハードウェア リソースを取得できるだけでなく、実際のコンピューティング消費量に応じて支払うこともできます。比較的少額の投資で十分なコンピューティング リソースを取得できるため、費用対効果が非常に高く、AI コストを効果的に削減できます。

◆ 応用シナリオ3:AIの運用と保守の簡素化

AI モデル トレーニング タスクを大規模に実行するには、コンピューティング リソースのスケジュール設定、タスク管理、タスクの災害復旧などの問題に対処する必要があります。 UAI-Train トレーニング プラットフォームは、コンピューティング ノードのスケジュール設定、タスク管理、災害復旧などの問題を自動的に解決し、トレーニング タスクのステータスを表示するグラフィカル インターフェイスをユーザーに提供します。

◆ 応用シナリオ4: GPUリソ​​ースの共有

GPU クラウド ホストと物理マシンを使用して、チーム、部門、さまざまなユーザー間で GPU リソースを共有することは困難です。 UAI-Train トレーニング プラットフォームは、数百人のユーザーが GPU リソース プール全体を共有するというニーズを同時に満たすと同時に、GPU リソース共有シナリオのニーズを満たすリソース分離機能とクォータ管理機能も提供します。

9月にSinovation Ventures、Sogou、Toutiaoが主催した「AI Challenger Global AI Challenge」では、UCloudが唯一のAI GPUパートナーとなり、同コンテスト向けにAIモデルトレーニングサービス(UCloud AI Train)を独占的に提供した。この協力は、UCloudの強力な研究開発能力、迅速な対応サービス、AI分野における自社プラットフォームの安定性を検証し、コンテストの成功を確実にするものでもある。

UCloud は、中国を代表するクラウド コンピューティング サービス プロバイダーとして、AI トレーニング プラットフォームの機能とパフォーマンスに関する徹底的な研究を継続し、より豊富な AI フレームワークと分散トレーニング サポートをユーザーに提供できるよう努めます。同時に、UCloudはUAI-Serviceオンラインサービスプラットフォームを組み合わせて、AIトレーニングからAIオンラインサービスまでの統合ソリューションを構築し、AI業界向けのサービス機能を全面的に強化します。

<<:  AIラボがワンストップAI開発を体験できる公開テストを開始

>>:  IPSec VPNが正式にリリースされ、UCloudゲートウェイのセキュリティ戦略に新たな強力なツールが加わりました。

推薦する

これらのポイントを理解していないと、ネットワークマーケティングをうまく行うことはできません。

オンライン マーケティングの役割は、ますます多くの企業に認識されています。以前は、多くの企業がオンラ...

優秀な SEO チームを作る方法

どの企業も、先見性があり、献身的で熱心な従業員で構成された完璧なインターネット マーケティング チー...

Baiduの変更によりウェブマスターにさらなるチャンスがもたらされる

SEO やウェブマスターのグループでは、友人たちが自分のウェブサイトが再び Baidu にブロックさ...

SEO ブログがなぜ人気がないのかご存知ですか?

なぜこのようなタイトルを思いついたのか不思議に思うかもしれません。あなたのブログは SEO ブログで...

name.com 6.99 ドルのドメイン移転オファー

クーポンコード: GROUPHUG わずか 6.99 ドルで name.com へのドメインの無料移...

草の根ブログの運営方法: 手で「タップ」する

葉建輝氏は以前からインターネット上で活動しており、今年7月1日に自身のインターネットブログ「Huiz...

NetSuiteの主要な技術革新は、さまざまな業界の企業の急速な成長に貢献しています。

Oracle NetSuite は本日、あらゆる業界の企業の収益増加、国際展開、ビジネス ユーザーの...

オンラインマーケティングを簡素化し、マーケティングを容易にする

インターネットの急速な発展は人々の生活にさらなる利便性をもたらしただけでなく、ますます多くのネットユ...

デスクトップ仮想化についてすぐに習得すべき 8 つの問題

デスクトップ仮想化テクノロジは、セキュリティ、管理性、柔軟性を向上させることが期待されているため、関...

オランダのVPSの推奨。ハイエンドのAS9929/4809と国際ネットワークを区別し、常にあなたに適したものが見つかります

オランダの VPS の推奨: オランダの VPS は苦情に強いものが多く、またオランダはヨーロッパや...

検索エンジンマーケティングの価値を高めるためにフローとコンバージョン率を把握する

今日のオンライン顧客マーケティングの発展から利益を得たい場合、何をすべきでしょうか? この問題を解決...

基礎知識はSEOの魂

SEO 担当者は、毎日「SEO」という 3 つの単語を見ると、少し美的疲労を感じるかもしれません。実...

クラウド サービス OpenAPI の 7 つの主要な課題: アーキテクトはどのように対処すべきでしょうか?

[[279233]] API は、モジュールまたはサブシステム間の相互作用のためのインターフェース定...

ロングテールを獲得するには、ウェブサイトの内部リンクを後期に継続的に改善する必要がある。

SEO に携わる人なら、ロングテール理論について聞いたことがあるはずです。これは、ウェブサイトのコア...

3日以内にホームページのトップ3キーワードを獲得する秘密

現在、インターネット業界の発展に伴い、SEO 手法が次々と登場し、さまざまなブラックハット SEO ...