CIO 向けハイパフォーマンス コンピューティング ワークロードをクラウドに移行するためのガイド

CIO 向けハイパフォーマンス コンピューティング ワークロードをクラウドに移行するためのガイド

英国気象庁は、従来とは異なるベンダーの従来型スーパーコンピューター、Azure 上の Cray EX システム 4 台を選択しました。これにより、「スーパーコンピューターの購入に費やす時間が減り、使用に費やす時間が増える」と英国気象庁の IT 研究者 Richard Lawrence 氏は述べています。

これにより、通常の複数年にわたる調達サイクルを省略できるだけでなく、柔軟性も得られ、独自のハードウェアを購入するよりもはるかに早く、将来のハイパフォーマンス コンピューティング (HPC) ワークロードに対してさまざまな選択を行うことが容易になります。市場調査およびアドバイザリ企業の Gartner は、HPC をクラウドに移行することで、データ分析を処理する社内のサイロから脱却し、20 年以上も続いている慣行を近代化する機会が得られる可能性があると示唆しています。

クラウド HPC の利点と欠点

パブリック クラウド プロバイダーが Cray ハードウェアへのアクセスを提供できるということは、パブリック クラウド プロバイダーが HPC ユーザーの中でも最も要求の厳しいセグメントのニーズを理解しているという信頼性を与えることになります。しかし、これはクラウド HPC の利点への足がかりにもなります。クラウド HPC では、Linux サーバーのクラスターを使用して、要求の厳しいスケールアウトされたワークロードを処理しますが、柔軟性、俊敏性、参入障壁の低さなど、クラウドのより一般的な利点も備えています。

「最も重要なのは、同種のインフラストラクチャではなく異種のインフラストラクチャを選択できることだ」とフォレスター社のシニアアナリスト、トレイシー・ウー氏はブルームバーグに語った。 「HPC インフラストラクチャのコストが高いため、ほとんどの購入者は契約を交渉できるように単一のブランドを選択し、その構成が適切かどうかに関係なく、すべてのワークロードをそのブランドで実行する必要があります。特に必要なものでなくても、持っているものを使用します。パブリック クラウドを使用すると、特定のユース ケースを満たすために必要なすべてのインフラストラクチャ オプションを利用できます。」

Cloud HPC を使用すると、高速 CPU と GPU、高密度コア数、高メモリ コアを備えた、使い慣れた Intel および AMD プロセッサと低価格の Arm プロセッサを組み合わせて提供し、アプリケーションのニーズを正確に指定できます。また、ほとんどの組織には予算や専門知識がないハードウェア アクセラレータも利用できるため、すぐに実験することが容易になります。

「インフラ設備に数十万ドル、場合によっては数百万ドルを費やす代わりに、クレジットカードだけを使用して、HPC を必要とする計算や特定の分析を数時間で実行できます」と Woo 氏は指摘します。また、各ワークロードや各タスクに適したインフラストラクチャを選択したり、次の更新サイクルを待たずに、新しいハードウェアが市場に登場するとすぐにベンチマークしたりすることもできます。

しかし、この柔軟性は混乱を招く可能性もあり、ウー氏は複数の選択肢が「分析麻痺」を引き起こす可能性があると警告している。組織がこうした選択を行うのを支援するツールとプラットフォームの業界が出現しています。

Nvidia の HPC および量子製品担当ディレクターの Timothy Costa 氏もこれに同意し、次のように述べています。「管理者には選択の自由度が非常に高いものの、選択したクラウド ベンダーの独自のアーキテクチャを深く理解する必要もあります。たとえば、高速ネットワーク上でさまざまなコンピューティング ハードウェアを組み合わせてインフラストラクチャ設計を最適化することはできますが、すべての種類のハードウェアがすべての地域で利用できるわけではありません。」

クラウド コンピューティングに適した HPC ワークロードを特定する

Hyperion Research によると、クラウドで実行される HPC ワークロードの割合は 2019 年に 10% から 20% に倍増しました。 Gartner は、クラウド HPC を、主流として採用されるまでにわずか 2 ~ 5 年しかかからない高収益オプションとしてランク付けしています。

製造業とライフサイエンスは、HPC をクラウドに移行した最初の業界であり、最も急速に成長しているサブマーケットであり続けています。コスタ氏は、これらのワークロードは「個々のタスクの失敗に対する許容度が高く、実行の局所性要件が低い、高度に並列化されたコードまたは作業の組み合わせ」である傾向があると述べた。同氏は、金融、気象学、航空宇宙、政府の研究所、そして高等教育機関でもクラウド HPC の利用が増えていると述べた。

クラウド HPC は、パフォーマンスとコストの関係が絶対的な実行時間よりも重要であり、コストを最小限に抑えるためにクラウド インフラストラクチャの設定に時間を費やすことができる一部のロングテール HPC ワークロード (またはオンプレミスで利用できないハードウェアで実行することで大きなメリットが得られるコード) に特に適しています。

クラウド コンピューティング IaaS 用に構築された一部のハイパースケール データ センターでは、HPC スーパーコンピューターとは異なる最適化対策が優先されます。ハイパースケール データ センターでは、回復力とフェイルオーバーを実現するために仮想マシンをデータ センター全体に分散しますが、HPC では、パフォーマンスを向上させるために最速のネットワーク接続を実現するために仮想マシンを緊密にグループ化します。コスタ氏は、クラウド HPC は疎結合で非常に並列化されたワークロードに最適であり、クラウド ネットワーキングは「コンポーザブル ワークロードやパラメータ スイープなどの HPC ワークロードのニーズを容易に満たす」と述べました。

仮想化されたパフォーマンスは、ベアメタル HPC に慣れている人には馴染みがないかもしれませんが、2021 年 11 月のトップ 500 リストでは、Azure 上に構築された仮想スーパーコンピューターが、すべて Hyper-V ベースの仮想マシンを使用した世界最速マシンのトップ 10 にランクインしました。 Google Cloud の主任 HPC テクノロジストである Bill Magro 氏は、次のように述べています。「クラウド内のコンピューティング最適化 VM はベアメタルに近い低ジッターのパフォーマンスを提供し、クラウド ネットワークは 200Gbs を超える帯域幅と 10µs 未満のレイテンシを提供でき、並列ファイル システムはテラバイト単位のデータ速度を提供できます。」

一般的なワークロードは次のとおりです。

  • コンピュータ支援エンジニアリング(流体力学、燃焼、衝突安全性、構造力学など)
  • 電子設計自動化
  • 計算物理学と化学
  • 特殊効果レンダリング
  • 定量分析
  • リスク分析

クラウドアーキテクチャのオプションを調べる

一部のワークロードでは、一貫して低レイテンシの高性能相互接続が必要ですが、これは従来のクラウド コンピューティングでは珍しいことです。クラウド プロバイダーがこれらを提供していない場合は、独自のインフラストラクチャを使用する方が高性能な相互接続に適していると Woo 氏はアドバイスします。ただし、AI とクラウド ゲームのワークロードはどちらも高速相互接続の恩恵を受けるため、クラウドでは高速ファブリックが登場し始めています。 Azure は、すべての H シリーズ クラスター (CPU ベースの HPC 用) とほとんどの N シリーズ クラスター (GPU ベースの HPC 用) で使い慣れた HPC InfiniBand 相互接続を提供し、Lustre 並列ファイル システムには AWS Elastic Fabric Adapter が使用されます。

AWS は最近、InfiniBand の代替としてカスタム Nitro ネットワーク アダプタで使用するために設計された新しいネットワーク トランスポート プロトコルを使用して、独自の Elastic Network Adapter を拡張し始めました。Elastic Network Adapter Express は、TCP の代わりに Scalable Reliable Datagram (SRD) を使用して、マルチテナント データセンターの多数のネットワーク パスを制限ではなく利点に変えようとしています。

「ネットワーク インフラストラクチャはクラウド HPC の妨げとなっており、ボトルネックになっています。そのため、ハイパースケーラーは現在、この点に重点を置いています」と Woo 氏は語ります。

HPC クラウドのコストを理解するための鍵

クラウド HPC の場合、必要なものだけを使用 (および支払い) しますが、少し余分に支払う場合があります。クラウド HPC のコストは独自のインフラストラクチャを実行する場合の 5 倍になるという推定もありますが、予約済みインスタンスまたはアイドル インスタンスを使用すると、コストは他のオプションとほぼ同等に下がります。

コスタ氏も同意し、「クラウドの柔軟性は全体的なコストを最小限に抑えるのに役立ちますが、クラウドでホストされるリソースの絶対的な単位コストはオンプレミスのリソースよりも高くなります。」つまり、長時間実行される HPC ワークロードは、リソースを最大限に活用できるオンプレミスのリソースに配置するのが合理的です。一方、Incredibuild の CTO である Dori Exterman 氏は、「小さなフットプリントで大容量を必要とする、頻繁に実行されないワークロードは、オンプレミス環境を構築するよりもクラウドの方がはるかに安価になる可能性がある」と考えています。

HPC クラウド自動化プラットフォーム Rescale は、多くの組織が Rescale ベンチマークを使用して、最も適切なクラウド ハードウェアを選択し、パフォーマンスを向上させ、ワークロードのコストを削減できることを示唆しています。ワークロードに最適なクラウドはすぐに変わる可能性がありますが、オプションに注意を払っていれば柔軟に切り替えることもできます。

何らかの課金慣行を実装していないか、明確なリソース使用ポリシーがない限り、HPC ユーザーはオンプレミス インフラストラクチャが事実上無料であると考えたり、ワークロードの実行時間や必要なインスタンスの数を見積もるのが困難になる可能性があります。これらの習慣をクラウド HPC に引き継ぐには多大なコストがかかる可能性があるため、ワークロードの予算をどのように組むかについて明確なポリシーとガイドラインが必要です。

クラウド HPC は、通常、リソース管理キューに長時間留まる小規模な HPC タスクのオフロードに特に役立ちます。これは、大規模で長時間実行されるタスクは通常、多くのリソースを消費し、HPC インフラストラクチャがこれらのタスクによって占有されることが多いためです。これは利用率と ROI の点では素晴らしいことですが、タスクを時間どおりに完了したり、より大規模で複雑なシミュレーションを実行してより良い結果を得たりするのに役立つ HPC インフラストラクチャの使用を待っているチームにとってはイライラするものです。

クラウド内のハイブリッド HPC にバースト モード アプローチを採用する場合は、どのワークロードをいつクラウドに移行するかを決定するためのフレームワークを開発します。

たとえば、Hyperion Research のクラウド アプリケーション評価ツールは、さまざまなワークロードにスコアを付け、クラウドでの実行に適しているかどうかを評価できます。

データの重力とデータエクスポートのコストを考慮する

また、データの重力とデータのエクスポートのコストも考慮する必要があります。データがオンプレミスで生成される場合は、データをクラウドに移行する方法を計画する必要があります。 HPC ジョブでペタバイト単位のデータが生成される場合は、結果を得るために追加料金を支払わないように、後続の処理や分析をクラウドで実行することを検討してください。 「ストレージコストはクラウド料金の中で驚くほど大きな割合を占める可能性がある」とコスタ氏は指摘する。

クラウド リソースを使用するには、適切なコスト管理と FinOps ツールが必要です。これは、請求額が非常に高額になる可能性があり、インフラストラクチャの選択を少し変更するだけで多額の費用を節約できるクラウド HPC の場合、さらに重要です。

しかし、クラウドコンピューティングは主にコスト削減が目的ではないとウー氏は指摘した。 「それは、能力を拡大する能力、俊敏性、そしてこれらすべてのさまざまなサービスを使用する能力に関するものです。」これは、より早く結果を得ること、同じ時間内により多くのシミュレーションを実行してより良い結果を得ること、あるいは単に IT チームと HPC ユーザーの生産性を向上させることを意味する可能性があります。

コスタ氏は、「HPC は通常、IP 開発の主なツールであるため、HPC をオフラインにすることはできません。クラウドでは、バックアップ、移行、地域フェイルオーバーをすべて組み込むことができます」と指摘しました。

クラウドライセンスの考慮事項

クラウド ライセンスは、次のような使い慣れた HPC ソフトウェアを使用して管理できます。

  • コンパイラ、ジョブ送信ツール、スケジューラ (Altair PBSPro、SchedMD Slurm、IBM Platform LSF、Altair GridEngine、HT Condor など)。
  • 管理および監視ツール
  • オペレーティングシステム、アプリケーション、メッセージング、数学ライブラリ
  • NVIDIA Bright Cluster ManagerやCloud OpenHPCなどのツールなどの完全なソリューション

Magro 氏は、「HPC ユーザー (通常は科学者、エンジニア、クオンツ、アーティスト) は、同じオンプレミスのアプリケーションとインターフェースを使用してクラウド HPC システムにアクセスします」と述べています。同氏は、「低レベルの物理プラットフォーム インターフェイス (IPMI、Redfish、vPro など) に依存する管理ツールは、ツールの作成者が関連する機能を明示的に有効にしない限り、通常はクラウド リソースと互換性がありません」と警告しました。しかし、彼は、Nagios などの代替手段をクラウドで使用できると指摘しました。

FinOps ツールが期待に沿わない可能性がある領域は次のとおりです。すでに所有しているソフトウェア ライセンスを管理し、それをクラウドで使用したい場合、オンプレミス ライセンスを扱う ITAM チームにはクラウドの専門知識が不足していることがよくあります。

「自分のライセンスを持ち込む」ことでクラウド HPC のコストを節約できる場合があります。また、ソフトウェア ベンダーがクラウド向けに異なるライセンス モデルを提供している場合もあります。これは難しい領域だと彼女は警告した。たとえば、Oracle はパブリック クラウド外での運用を非常に困難にしていることで知られています。

スキルギャップも考慮する必要があります。 「パブリック クラウドを理解している人を雇うのも大変ですが、ハイ パフォーマンス コンピューティングとパブリック クラウドを理解している人を雇うのはさらに困難です。」

従来とは異なるHPCの探求

しかし、クラウド HPC はスタックのもう少し上位に移動する機会にもなり得ます。

Google の HPC Cloud Toolkit などのクラウド HPC サービスは、Terraform、Ansible、Packer などの使い慣れたクラウド ツールによって定義されたインフラストラクチャを使用して、一般的なワークロードの青写真を提供します。

シミュレーションは典型的な HPC ワークロードであり、AWS SimSpace Weaver、Siemens Simcenter Cloud HPC (従来の HPC ソフトウェアを AWS 上でサービスとして実行)、Microsoft の Project AirSim (自律航空機の構築、トレーニング、テスト用) などのクラウド サービスによってシミュレーションが容易になり、インフラストラクチャを直接構成および管理することなく、十分な規模でシミュレーションを実行できます。

もう 1 つのオプションは、API を呼び出すか、コンテナーまたはサーバーレス プラットフォームを使用してコンピューティングを分散およびオーケストレーションするかに関係なく、HPC をネイティブ クラウド サービスで置き換えるか、補完することです。米国のサンディエゴ スーパーコンピュータ センターは、Google Kubernetes Engine のアイドル状態の仮想マシンで GPU 共有を使用して、南極の IceCube ニ​​ュートリノ観測所での光子コードの動作を高速化しています。

予測や高度な分析などの AI ワークロードの場合、新しい OpenAI モデルを含む Azure Cognitive Services などの事前構築済みだがカスタマイズ可能なオプションを使用して API を呼び出すことで、HPC インフラストラクチャがなくても同様のレベルの分析情報を得ることができます。

Red Hat のチーフ ソリューション アーキテクトである James Read 氏は、データ駆動型の大規模な意思決定に使用される人工知能ワークロードには複雑な統合要件があり、エンタープライズ アプリケーションと並行して導入されることが多いと指摘しました。 「これにより、従来のベアメタル展開からコンテナベースのKubernetesオーケストレーションされたハイブリッドクラウドプラットフォームへの移行が促進され、エッジとクラウドにHPCソリューションを展開できるようになりました。」

これらのクラウド サービスを既存の HPC ソリューションの補足として使用している場合、このタイプのワークロードをクラウドに移行すると統合が簡素化されます。

<<:  大規模エンタープライズクラウド移行における4つの重要な問題と解決策

>>:  Kubernetes Podの排除に関する詳細な説明

推薦する

インテリジェントコンピューティングの実現: Inspur クラウド製品プラットフォーム + エコロジカルデュアルエンジンドライブ

4 月 26 日、毎年恒例の Inspur クラウド データ センター全国パートナー カンファレンス...

anexia-it ドイツ CN2 レビュー: 最適化されたヨーロッパルートをご覧ください

ヨーロッパのCN2ラインについて聞いたことがある人もいるかもしれませんが、実際にテストした人はほとん...

#VPSテスト# 2Gメモリ搭載のBandwagonHostのCN2 GIAラインVPSの評価データをそのまま共有

3月14日の午後、bandwagonhostは突然、自社のウェブサイトで新しいバージョンのVPSをリ...

クラウド レンダリングを使用して「My Motherland and Me」をサポートするにはどうすればよいでしょうか? JD Cloudは約1,000台のサーバーを使用している

国慶節連休中、中華人民共和国建国70周年を記念したトリビュート映画「わが祖国と私」がヒットし、全国的...

クラウド コンピューティングとモノのインターネットは互いに補完し合いますが、その違いは何でしょうか?

クラウド コンピューティングとモノのインターネットは、今日の IT 業界における 2 つの主要な焦点...

テンセント副社長ディン・ケ氏:クラウドネイティブのセキュリティ機能を構築し、エコシステムと連携して普遍的なセキュリティを実現する

近年、わが国のデジタル化の発展は急速に進み、社会経済に新たな原動力を注入し、さまざまな業界における...

優れたインタラクティブ体験のウェブサイトリスト製品表示デザイン

商品集約ページ: 名前の通り、商品をリスト化して、一定の共通特性を持つ商品のコレクションページを作成...

クラウドコンピューティングの人工知能の開発は遅いが、注目を集めている。

IT プロフェッショナルが AI の適用を実験する際、その多くはパブリック クラウドでそれを実行する...

ウェブサイトページを最適化するための10のヒントを共有します

多くの同僚は、ウェブサイトのコンテンツが優れていてランキングが向上していれば、トラフィックは後からつ...

Xiong Zhanghaoの検索インデックスを改善するためのMIP変換の例

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています前回の記事...

バイトダンスとテンセントの公然かつ秘密の戦い

つい最近、西瓜動画は今日頭条プラットフォームに「テンセントの著作権侵害の申し立てに基づき、広州裁判所...

垂直型ウェブサイトQiushibaike.comの成功についての簡単な分析

先輩の「Qiushiyou」として、仕事以外で私が毎日必ず訪問するウェブサイトはQiushibaik...

検索エンジンとウェブサイト: 違いは引き付け合い、類似点は反発する (パート 1)

物理学には常に「反対のものは引き合い、同じものは反発する」という法則があります。現実の世界では、この...

ブロックチェーンとは——ブロックチェーンの分散データベースとコンセンサスメカニズム

[[228043]]ブロックチェーン(英: Blockchain、block chain)は、分散型...