オープンソース版のデータメカニズムの改善 Kubernetes 上の Spark の概要を知りたい場合は、Kubernetes 上で Spark を実行することの長所と短所を確認してください。また、より詳細な技術情報をお求めの場合は、Kubernetes 上の Spark の設定、管理、監視に関するガイドをお読みください。
Data Mechanics は、顧客のクラウド アカウント内の Kubernetes クラスターにデプロイされ、AWS、GCP、Azure で利用できるマネージド Spark プラットフォームです。その結果、当社全体が Kubernetes 上の Spark 上に構築されており、これが単に Kubernetes オープンソース上で Spark を実行することとどう違うのかとよく尋ねられます。 簡単に答えると、当社のプラットフォームには、Kubernetes 上の Spark をより使いやすく、コスト効率を高める多くの機能が実装されています。セットアップとメンテナンスを担当することで、お客様が導入に集中して加速し、メンテナンス作業を大幅に削減できるようにすることが私たちの目標です。私たちの目標は、Spark をシンプルかつ柔軟で、パフォーマンスの高いものにすることで、データ エンジニアリング プロジェクトを加速することです。 Spark-on-Kubernetes に基づく主な改善点についてお話ししましょう。 直感的なユーザーインターフェース Data Mechanics ユーザーには、各 Spark アプリケーションのログとメトリックを表示できるダッシュボードが提供されます。また、Spark UI にもアクセスできますが、これはまもなく当社独自の監視ツールである Data Delight に置き換えられる予定です (更新、2020 年 12 月:最初の嬉しいマイルストーンがリリースされました!)。このプロジェクトの目的は、Spark 開発者が障害発生時にアプリケーションを簡単にトラブルシューティングできるようにし、必要に応じてパフォーマンスを改善するための高レベルの推奨事項 (データのパーティション分割やメモリ管理など) を提供できるようにすることです。 > データメカニクスの喜び また、処理されたデータの量、期間、コストなどの主要なパイプライン メトリックの履歴グラフを提供する「ジョブ ユーザー インターフェイス」にもアクセスできます。これにより、チームは生産パイプラインが期待どおりに実行されていることを簡単に確認し、必要に応じてコストを追跡できます。 > データメカニクスジョブUI 動的最適化 Data Mechanics プラットフォームは、パイプライン インフラストラクチャ パラメータと Spark 構成を自動的かつ動的に最適化し、高速かつ安定した状態にします。調整する必要がある設定は、Pod のメモリと CPU の割り当て、ディスク設定、並列処理、シャッフル、メモリ管理に関する Spark 構成です。これを実現するために、アプリケーションのログとメトリックを分析し、アプリケーションの過去の実行履歴を使用してボトルネックを特定し、最適化します。 > Data Mechanicsの自動チューニング機能 自動スケーリングに加えて、当社のプラットフォームでは、Spark アプリケーション レベル (動的割り当て) および Kubernetes クラスター レベルでの自動スケーリングも可能になります。つまり、Kubernetes ノードのプールを管理して、リソースがさらに必要なときにクラスターを拡張し、リソースが不要になったらゼロまでスピンダウンします。また、Spark Ojecutor の既製ノードを簡単に使用して、クラウド コストをさらに削減することもできます。 > Data Mechanics の自動スケーリング機能 最後に、一般的なデータ ソースとシンク用に最適化されたコネクタを備えた Spark イメージのリストを提供します。これらのイメージを直接使用することも、カスタム依存関係を持つ独自の Docker イメージを構築するための基盤として使用することもできます。 これらの最適化の目的は、Spark が提供できる最高のパフォーマンスを提供し、クラウド コストを削減することです。実際、当社のサービスに対して請求する管理料金は、クラウド プロバイダーの請求額で当社が節約できる金額をはるかに上回ります。当社は、競合する Spark プラットフォームから移行するお客様のクラウド コンピューティング費用を 50% ~ 75% 削減できるよう支援してきました。 統合 Data Mechanics は、Jupyter、JupyterLab、JupyterHub などのノートブック サービスや、Airflow などのスケジューラ/ワークフロー サービスと統合されます。 当社のプラットフォームはお客様が管理する Kubernetes クラスターにデプロイされるため、Docker/Kubernetes 互換ツールの完全なエコシステムにもアクセスできます。また、クラウド アカウント VPC にデプロイするため、企業ネットワーク内のローカル ツールとの独自の統合も簡単に構築できます。 > Data Mechanics の Jupyter、Docker、Kubernetes、Airflow とのネイティブ統合 安心のためのマネージドサービス マネージド サービスとして、インフラストラクチャのセットアップとメンテナンスを担当します。 Data Mechanic にサインアップすると、顧客にクラウド アカウントの権限が付与され、当社はこれらの権限を使用して Kubernetes クラスターを作成し、最新のセキュリティ修正プログラムで最新の状態に保ち、2 週間ごとに新機能のリリースをプッシュします。 > データメカニクスプラットフォームアーキテクチャ お客様の導入が安全であることを保証するのも私たちの責任です。御社の VPC 内にデプロイし、クラスターをプライベートにして、御社の仮想プライベート ネットワーク経由でのみアクセスできるようにすることができます。データ アクセスとユーザー認証 (シングル サインオン) の複数のオプションを通じて、セキュリティのベストプラクティスを適用するためのツールを提供します。 結論は 私たちは、Kubernetes やその他のオープンソース プロジェクトを基盤として構築し、時には貢献できることを誇りに思っています。私たちは、オープンかつ透明性のある方法で、お客様自身が構築するデータ プラットフォームを構築しようとしています。クラウド アカウントと VPC にデプロイすることで、オンプレミス プロジェクトの柔軟性とホスト型プラットフォームの使いやすさを実現できます。 当社が社内で実施する最適化によって価格が完全に相殺されるわけではありませんが、実際、競合プラットフォームから移行する際に、一部のお客様の総コストを 50% ~ 75% 削減するお手伝いをしてきました。 元のリンク: https://medium.com/data-mechanics/spark-on-kubernetes-made-easy-how-data-mechanics-improves-on-the-open-source-version-3446e6672240 |
<<: パブリッククラウドとプライベートクラウドの主な利点と違い
Sanyouyunの11.11プロモーションも開催中:(1)米国西海岸サンノゼの双方向CN2が生涯3...
サーバー仮想化テクノロジーを使用してインフラストラクチャ クラウドを構築することには、利点と欠点の両...
日本のデータセンターのVPSは、登録したくない国内のウェブマスターにとって希少なリソースです。地理的...
[[268507]]コンテナ クラウドで分散ストレージを使用する場合、HDFS、CEPH、GFS、G...
ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスSEO をするにはどうす...
検索エンジンのアルゴリズムが継続的に更新されているため、SEO は以前よりも難しくなり、時間がかかる...
関連記事: 電子書籍を販売し、年間数億ドルを稼ぐ、私が今まで見た中で最も素晴らしい人物 (パート 1...
どのウェブサイトでも、ユーザーに価値ある情報を継続的に提供するために、優れたコンテンツ システムが必...
月収10万元の起業の夢を実現するミニプログラム起業支援プラン国慶節の休日が近づいており、多くのサラリ...
ある日、退屈していたときに、Baidu の検索ボックスに「site:www.baidu.com」とい...
最近、たまたまコンテンツ配信に関わるプロダクトデザインに携わる機会があり、この分野でどのプロダクトが...
多くのウェブマスターは、インターネットプロモーションを、ウェブサイトの重みとランキングを向上させ、イ...
SEO 最適化において、301 リダイレクトは頻繁に使用される機能です。その主な目的は、ウェブサイト...
ftpit は昨年新年のプロモーションを行いましたが、低価格で販売している業者と比べると、割引額は特...
新年が近づくにつれ、業界の専門家は2020年のクラウドコンピューティングの開発動向を予測しています。...