KServe: 堅牢でスケーラブルなクラウドネイティブモデルサーバー

KServe: 堅牢でスケーラブルなクラウドネイティブモデルサーバー

Kubeflow に精通している場合は、KFServing がプラットフォームのモデル サーバーと推論エンジンであることをご存知でしょう。昨年 9 月、KFServing プロジェクトは変革を遂げ、KServe になりました。

名前の変更に加えて、KServe は Kubeflow プロジェクトから卒業した独立したコンポーネントになりました。この分離により、KServe はスタンドアロン モデル サーバーとして展開される、独立したクラウド ネイティブ推論エンジンに進化できます。もちろん、Kubeflow との緊密な統合は継続されますが、独立したオープンソース プロジェクトとして扱われ、維持されます。

KServe は、Google、IBM、Bloomberg、Nvidia、Seldon の共同で開発された、Kubernetes 用のオープンソースのクラウドネイティブ モデル サーバーです。最新リリース 0.8 では、モデル サーバーをスタンドアロン コンポーネントに変換することに重点が置かれ、分類法と命名法に変更が導入されています。

KServeのコア機能を理解しましょう

モデル サーバーは機械学習モデルにとって、アプリケーションがバイナリ コードの記述にとってのような役割を果たします。どちらも、デプロイメント用のランタイムと実行コンテキストを提供します。モデル サーバーとして、KServer は機械学習と大規模学習モデルの基盤を提供します。

KServe は、従来の Kubernetes デプロイメントとして、またはゼロスケーリングをサポートするサーバーレス デプロイメントとしてデプロイできます。サーバーレスの場合、自動スケーリング機能を備えたサーバーレス向けの Knative Serving を活用します。 Istio は、サービス エンドポイントを API コンシューマーに公開するためのイングレスとして使用されます。 Istio と Knative サービスの組み合わせにより、モデルのブルー/グリーンやカナリア デプロイメントなどの魅力的なシナリオが可能になります。

Kserve アーキテクチャ図

RawDeployment モードでは、水平ポッド自動スケーリング (HPA) などの従来のスケーリング手法をサポートするものの、ゼロへのスケーリングはサポートしない Knative Serving を使用せずに KServe を使用できます。

KServe アーキテクチャ

KServe モデル サーバーには、コントロール プレーンとデータ プレーンがあります。コントロール プレーンは、推論を担当するカスタム リソースを管理および調整します。サーバーレス モードでは、Knative リソースと連携して自動スケーリングを管理します。

KServe コントロール プレーンの中核は、推論サービスのライフサイクルを管理する KServe コントローラーです。サービス、イングレス リソース、モデル サーバー コンテナー、リクエスト/レスポンス ログ記録用のモデル プロキシ コンテナー、バッチ処理、モデル ストレージからのモデルの抽出を担当します。モデル ストアは、モデル サーバーに登録されたモデルのリポジトリです。通常は、Amazon S3、Google Cloud Storage、Azure Storage、MinIO などのオブジェクト ストレージ サービスです。

データ プレーンは、特定のモデルの要求/応答サイクルを管理します。予測子、変換子、およびインタープリタのコンポーネントがあります。

AI アプリケーションは、予測エンドポイントに REST または gRPC リクエストを送信します。予測子は、トランスフォーマー コンポーネントを呼び出す推論パイプラインとして機能し、受信データ (リクエスト) の前処理と送信データ (レスポンス) の後処理を実行できます。あるいは、ホストされたモデルに AI 説明機能をもたらす説明コンポーネントが存在する可能性もあります。 KServe は、相互運用性と拡張性に優れた V2 プロトコルの使用を推奨しています。

データ プレーンには、モデルの準備状況と健全性をチェックするためのエンドポイントもあります。また、モデル メタデータを取得するための API も公開します。

サポートされているフレームワークとランタイム

KServe は、幅広い機械学習およびディープラーニング フレームワークをサポートしています。ディープラーニング フレームワークとランタイムは、TensorFlow Serving、TorchServe、Triton Inference Server などの既存のサービス インフラストラクチャと連携します。 KServe は、Triton を通じて TensorFlow、ONNX、PyTorch、TensorRT ランタイムをホストできます。

SKLearn、XGBoost、Spark MLLib、LightGBM に基づく従来の機械学習モデルの場合、KServe は Seldon の MLServer に依存します。

KServe の拡張可能なフレームワークにより、V2 推論プロトコルに準拠する任意のランタイムにプラグインできます。

ModelMesh を使用したマルチモード サービス

KServe は推論ごとに 1 つのモデルを展開し、プラットフォームのスケーラビリティを利用可能な CPU と GPU に制限します。この制限は、高価で希少なコンピューティング リソースである GPU で推論を実行する場合に明らかになります。

マルチモード サービスを使用すると、コンピューティング リソース、最大ポッド、最大 IP アドレスなどのインフラストラクチャの制限を克服できます。

IBM が開発した ModelMesh Serving は、大容量/高密度のユースケース向けに最適化された、ML/DL モデルのリアルタイム サービングのための Kubernetes ベースのプラットフォームです。利用可能なリソースを最大限に活用するためにプロセスを管理するオペレーティング システムと同様に、ModelMesh はデプロイされたモデルを最適化してクラスター内で効率的に実行します。

システムは、デプロイされたポッドのクラスター全体でメモリ内モデル データをインテリジェントに管理し、それらのモデルを長期にわたって使用することで、利用可能なクラスター リソースの使用を最大化します。

ModelMesh Serving は推論用の KServe v2 データ プレーン API に基づいており、NVIDIA Triton Inference Server と同様のランタイムとして展開できます。リクエストが KServe データ プレーンに到着すると、それは単に ModelMesh Serving に委任されます。

ModelMesh Serving と KServe の統合は現在アルファ段階です。両方のプログラムが成熟するにつれて、より緊密な統合が行われ、2 つのプラットフォームの機能と能力を組み合わせて使用​​できるようになります。

モデル サービングが MLOP のコア ビルディング ブロックになるにつれて、KServe のようなオープン ソース プロジェクトが非常に重要になります。 KServe の拡張性により、既存および今後のランタイムを使用できるため、ユニークなモデル提供プラットフォームになります。

<<:  スケジューリングとオーケストレーションのための 7 つの CNCF ツール

>>:  企業はクラウド変革からどのようなメリットを得られるのでしょうか?

推薦する

Alibaba、JD.com、Pinduoduo、ソーシャルeコマース企業間の戦いは間違いなく起こるでしょう!

コア読書: 1. Alibaba と JD はソーシャル e コマースにどのようなモデルを選択します...

JVMでよく使われるパフォーマンス監視ツールを見てみましょう

前回の記事では、主にJVMのメモリ構造、クラスロードの仕組み、ガベージコレクションの仕組みについて分...

百度がモバイルプラットフォームの構築に着手、寡占競争は続く

BAT三大勢力に関する噂は、常にネット上で話題になっているが、ここ数ヶ月はアリババとテンセントの特別...

4月25日の百度の「騒動」について語り、百度のアルゴリズムを分析する

今日は4月26日です。昨日の午後(4月25日)のBaiduの「騒動」は、誰もが体験し、深く感じたはず...

分散一貫性セッションの実装方法を4つ一気に説明するなんて、インタビューすごいですね〜

[[333096]]序文Afen 社には、Tomcat を使用して導入された Web 管理システムが...

百度の重み付け計算方法はトラフィック計算だけに基づいているわけではない

記事「Baidu Weight」の計算方法と脆弱性分析では、AizhanのBaidu Weightと...

spinservers: Chia マイナーを 30 分以内に納品、月額 149 ドル、2*e5-2630Lv2/256G メモリ/3.2T SSD/10T トラフィック/10Gbps 帯域幅

spinservers はダラス データ センターに 2 台の安価なサーバーを補充しました。ウェブマ...

Yunzhi.com で構築された新しい Web サイトは、Baidu のトップページに 2 か月間掲載されています。

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています新しいウェ...

#blackfriday# liquidweb - 50% オフ / フルマネージド VPS / cPanel / 59 秒の応答

ブラックフライデーがいよいよ近づいてきました。20年間の運営実績を誇る世界トップクラスのフルマネージ...

自分専用のウェブサイトを構築する必要はまだあるのでしょうか?

かつて流行した「個人ウェブサイト」という言葉は、時が経つにつれて徐々に忘れ去られつつあります。インタ...

クラウドネイティブは、浙江のユニコーンであるファーウェイの「栽培」にあらゆるものの成長をもたらします

4月28日、第5回万事成長大会が杭州国際博覧センターで盛大に開催されました。中国科学技術協会の指導の...

SEO 求人検索に何を準備すべきか

SEO が単純な個人のウェブサイトから求職活動、そして企業での業務へと移行すると、変更が必要な点が多...

3月の中国ドメイン名サービスプロバイダー上位25社:HiChina DNSpodの市場シェアは低下

IDC Review Network (idcps.com) は 4 月 4 日に次のように報告しま...

海外メディアから見た中国のクラウドコンピューティングのユニコーン

編集者注: デジタル経済が発展し続けるにつれて、クラウド コンピューティング業界は急成長し、多くのス...