Kubernetes 上の Spark を簡単に

オープンソース版のデータメカニズムの改善

Kubernetes 上の Spark の概要を知りたい場合は、Kubernetes 上で Spark を実行することの長所と短所を確認してください。また、より詳細な技術情報をお求めの場合は、Kubernetes 上の Spark の設定、管理、監視に関するガイドをお読みください。

[[382157]]

Data Mechanics は、顧客のクラウドアカウント内の Kubernetes クラスターにデプロイされ、AWS、GCP、Azure で利用できるマネージド Spark プラットフォームです。その結果、当社全体が Kubernetes 上の Spark 上に構築されており、これが単に Kubernetes オープンソース上で Spark を実行することとどう違うのかとよく尋ねられます。

簡単に答えると、当社のプラットフォームには、Kubernetes 上の Spark をより使いやすく、コスト効率を高める多くの機能が実装されています。セットアップとメンテナンスを担当することで、お客様が導入に集中して加速し、メンテナンス作業を大幅に削減できるようにすることが私たちの目標です。私たちの目標は、Spark をシンプルかつ柔軟で、パフォーマンスの高いものにすることで、データエンジニアリングプロジェクトを加速することです。

Spark-on-Kubernetes に基づく主な改善点についてお話ししましょう。

直感的なユーザーインターフェース

Data Mechanics ユーザーには、各 Spark アプリケーションのログとメトリックを表示できるダッシュボードが提供されます。また、Spark UI にもアクセスできますが、これはまもなく当社独自の監視ツールである Data Delight に置き換えられる予定です (更新、2020 年 12 月:最初の嬉しいマイルストーンがリリースされました!)。このプロジェクトの目的は、Spark 開発者が障害発生時にアプリケーションを簡単にトラブルシューティングできるようにし、必要に応じてパフォーマンスを改善するための高レベルの推奨事項 (データのパーティション分割やメモリ管理など) を提供できるようにすることです。

> データメカニクスの喜び

また、処理されたデータの量、期間、コストなどの主要なパイプラインメトリックの履歴グラフを提供する「ジョブユーザーインターフェイス」にもアクセスできます。これにより、チームは生産パイプラインが期待どおりに実行されていることを簡単に確認し、必要に応じてコストを追跡できます。

> データメカニクスジョブUI

動的最適化

Data Mechanics プラットフォームは、パイプラインインフラストラクチャパラメータと Spark 構成を自動的かつ動的に最適化し、高速かつ安定した状態にします。調整する必要がある設定は、Pod のメモリと CPU の割り当て、ディスク設定、並列処理、シャッフル、メモリ管理に関する Spark 構成です。これを実現するために、アプリケーションのログとメトリックを分析し、アプリケーションの過去の実行履歴を使用してボトルネックを特定し、最適化します。

> Data Mechanicsの自動チューニング機能

自動スケーリングに加えて、当社のプラットフォームでは、Spark アプリケーションレベル (動的割り当て) および Kubernetes クラスターレベルでの自動スケーリングも可能になります。つまり、Kubernetes ノードのプールを管理して、リソースがさらに必要なときにクラスターを拡張し、リソースが不要になったらゼロまでスピンダウンします。また、Spark Ojecutor の既製ノードを簡単に使用して、クラウドコストをさらに削減することもできます。

> Data Mechanics の自動スケーリング機能

最後に、一般的なデータソースとシンク用に最適化されたコネクタを備えた Spark イメージのリストを提供します。これらのイメージを直接使用することも、カスタム依存関係を持つ独自の Docker イメージを構築するための基盤として使用することもできます。

これらの最適化の目的は、Spark が提供できる最高のパフォーマンスを提供し、クラウドコストを削減することです。実際、当社のサービスに対して請求する管理料金は、クラウドプロバイダーの請求額で当社が節約できる金額をはるかに上回ります。当社は、競合する Spark プラットフォームから移行するお客様のクラウドコンピューティング費用を 50% ～ 75% 削減できるよう支援してきました。

統合

Data Mechanics は、Jupyter、JupyterLab、JupyterHub などのノートブックサービスや、Airflow などのスケジューラ/ワークフローサービスと統合されます。

当社のプラットフォームはお客様が管理する Kubernetes クラスターにデプロイされるため、Docker/Kubernetes 互換ツールの完全なエコシステムにもアクセスできます。また、クラウドアカウント VPC にデプロイするため、企業ネットワーク内のローカルツールとの独自の統合も簡単に構築できます。

> Data Mechanics の Jupyter、Docker、Kubernetes、Airflow とのネイティブ統合

安心のためのマネージドサービス

マネージドサービスとして、インフラストラクチャのセットアップとメンテナンスを担当します。 Data Mechanic にサインアップすると、顧客にクラウドアカウントの権限が付与され、当社はこれらの権限を使用して Kubernetes クラスターを作成し、最新のセキュリティ修正プログラムで最新の状態に保ち、2 週間ごとに新機能のリリースをプッシュします。

> データメカニクスプラットフォームアーキテクチャ

お客様の導入が安全であることを保証するのも私たちの責任です。御社の VPC 内にデプロイし、クラスターをプライベートにして、御社の仮想プライベートネットワーク経由でのみアクセスできるようにすることができます。データアクセスとユーザー認証 (シングルサインオン) の複数のオプションを通じて、セキュリティのベストプラクティスを適用するためのツールを提供します。

結論は

私たちは、Kubernetes やその他のオープンソースプロジェクトを基盤として構築し、時には貢献できることを誇りに思っています。私たちは、オープンかつ透明性のある方法で、お客様自身が構築するデータプラットフォームを構築しようとしています。クラウドアカウントと VPC にデプロイすることで、オンプレミスプロジェクトの柔軟性とホスト型プラットフォームの使いやすさを実現できます。

当社が社内で実施する最適化によって価格が完全に相殺されるわけではありませんが、実際、競合プラットフォームから移行する際に、一部のお客様の総コストを 50% ～ 75% 削減するお手伝いをしてきました。

元のリンク:

https://medium.com/data-mechanics/spark-on-kubernetes-made-easy-how-data-mechanics-improves-on-the-open-source-version-3446e6672240

<<: パブリッククラウドとプライベートクラウドの主な利点と違い

>>: 開発者がKubernetesを理解する方法

Kubernetes 上の Spark を簡単に

ウェブサイトの各ページの負荷バランスを最適化する方法

低遅延、帯域幅節約、海外でのワールドカップ生中継も「中国の技術」を活用

クラウドバーストの定義と応用

#クリスマス# コロクロッシング: 35% オフ、月額 2.57 ドル、1G メモリ/1 コア/25g SSD/20T トラフィック/1Gbps 帯域幅、ロサンゼルス/ニューヨーク

新人ウェブマスターがウェブサイト最適化の3か月間の実践経験を共有

RamNode - 38% オフ/シアトル/アトランタオンライン

リスク管理を活用して、小紅書が棚から撤去されるのを防ぐにはどうすればよいでしょうか?

ウェブマスターは、ウェブサイトのSEOをうまく行うために分業と協力が必要です。

人民日報がマイクロソフトと提携し、マイクロソフト XiaoIce と Bing 検索を搭載した英語クライアントバージョン 2.0 をリリース

ライトイヤーフォーラムの閉鎖はSEOの新時代の到来を象徴している

推薦する

#11.11# 三友クラウド、VPS年間支払いは98元から、米国CN2回線は35％割引、日本CN2と香港CMI回線は20％割引

仮想化技術を使用してインフラストラクチャクラウドを構築することの利点と欠点の分析

日本におけるLinode、Vultr、Conohaの簡単な比較

コンテナクラウドで分散ストレージを使用する場合、HDFS、CEPH、GFS、GPFS、Swift などのどれが適していますか?

ウェブサイトのランキング最適化レッスン 2: SEO を実行するには? SEO を行うのは人間になるようなものです!

ローカル移動ウェブサイトの最適化の詳細例

電子書籍を販売し、年間数億ドルを稼ぐ、私が今まで見た中で最もすごい人（パート 2）

独自のコンテンツシステムを作成する際に考慮すべき3つの基本ポイント

「第11のマーケティング」 EDMのチャンスを掴んでメールマーケティングを成功させる

Baiduが検索デッドループに陥った理由について簡単に説明する

Bilibiliはどのようにコンテンツを配信しますか?

オンラインプロモーションの目的は、ブランド構築に重点を置き、ユーザーの参加を増やすことです。

古いサイトから新しいサイトへの 301 リダイレクトを使用できますか?

ftpit: 新年割引、仏教徒商人、50% オフプロモーション、安定したウェブサイト構築など、年間 16 ドルから

2020 年のクラウドコンピューティング開発動向の予測