Alibaba ビッグデータ クラウドネイティブプラクティス、EMR Spark on ACK 製品紹介

Alibaba ビッグデータ クラウドネイティブプラクティス、EMR Spark on ACK 製品紹介

1. クラウドネイティブの課題とAlibabaの実践

ビッグデータ技術開発動向

クラウドネイティブの課題

コンピューティングとストレージの分離

オブジェクトストレージをベースにしたHCFSファイルシステムの構築方法

既存のHDFSと完全に互換性があります
HDFSに匹敵するパフォーマンスを低コストで実現

シャッフルストレージとコンピューティングの分離

ACKハイブリッド異種モデルの問題を解決する方法

異種モデルにはローカル ディスクがありません。コミュニティ [Spark-25299] では、Spark の動的リソースについて議論およびサポートが行われ、業界のコンセンサスとなりました。

キャッシュソリューション

クロスコンピュータルームとクロス専用線ハイブリッドクラウドを効果的にサポートする方法

コンテナ内のキャッシュシステムをサポートする必要がある

ACK スケジューリング

スケジューリングパフォーマンスのボトルネックを解決する方法

パフォーマンスベンチマークYarn
マルチレベルキュー管理

他の

ピークシフトスケジュール
Yarnon ACKノードリソース相互認識

Alibaba Practice - ACK 上の EMR

全体的なソリューションの紹介

データ開発クラスター/スケジューリング プラットフォームを介してさまざまな実行プラットフォームに送信し、段階的なスケジューリングを行い、ビジネスのピークとオフピークの戦略に応じてクラウド ネイティブ データ レイク アーキテクチャを調整します。ACK は強力な弾力的な拡張および縮小機能を備えており、専用回線を使用してクラウド内外でハイブリッド スケジューリングを実行します。
ACKは優れた柔軟性で異種クラスタを管理します

2. Sparkコンテナ化ソリューション

ソリューションの紹介

RSS よくある質問

1. リモートシャッフルサービスが必要な理由は何ですか?

RSS を使用すると、Spark ジョブで Executor Pod にクラウド ディスクをマウントする必要がなくなります。クラウド ディスクをマウントすることは、スケーラビリティと大規模な生産慣行には役立ちません。
クラウド ディスクのサイズを事前に決定することはできません。大きすぎるとスペースが無駄になります。小さすぎると、シャッフルは失敗します。 RSS は、ストレージとコンピューティングの分離シナリオ向けに特別に設計されています。
Executor は、シャッフル データの管理を担当する RSS システムにシャッフル データを書き込みます。 Executor はアイドル状態のときにリサイクルできます。 [スパーク-25299]
動的リソースを完全にサポートし、データ偏りのあるロングテール タスクが Executor リソースを保持して解放されないようにすることを防ぎます。
2. RSS のパフォーマンス、コスト、スケーラビリティはどの程度ですか?

RSS はシャッフルに対して高度な最適化が施されており、ストレージとコンピューティングの分離シナリオや K8s のエラスティック シナリオ向けに特別に設計されています。
Shufflefetch ステージでは、reduce ステージでのランダム読み取りをシーケンシャル読み取りに変換できるため、ジョブの安定性とパフォーマンスが大幅に向上します。
シャッフル用にクラウド ディスクを追加することなく、元の K8s クラスター内のディスクを直接デプロイに使用できます。コスト効率が非常に高く、導入方法も柔軟です。

スパークシャッフル

numMapper * numReducerブロックを生成する
連続書き込みおよびランダム読み取り書き込み中の流出
単一レプリカ、データ損失にはステージの再計算が必要

EMR リモートシャッフルサービス

追加書き込みおよび書き込みなしの順次読み取り時のスピル
2部;コピーがメモリにコピーされると、そのコピーはパブリックネットワーク帯域幅を必要とせずにイントラネット経由でバックアップされます。

RSS TeraSort ベンチマーク

注: 10T Terasort を例にとると、圧縮後のシャッフル ボリュームは約 5.6T になります。 RSS シナリオでは、シャッフル読み取りがシーケンシャル読み取りに変更されるため、この規模のジョブのパフォーマンスが大幅に向上することがわかります。

ECI効果のスパーク

まとめ

<<:  配布中の地域的な問題により、300ラウンドの戦いに至った

>>:  クラウドテクノロジー|ハイブリッドクラウド管理プラットフォームのマルチリージョンアーキテクチャ

推薦する

iniz-1gメモリ/512mVswap/50gハードディスク/Gポート/年額31ドル

INIZ は英国で正式に登録された会社です。同社の VPS はエンタープライズ レベルのアプリケーシ...

SEOウェブサイトの微調整に関する実践的な経験の共有

月収10万元の起業の夢を実現するミニプログラム起業支援プラン9月19日、馬慧は「一部のウェブサイトの...

クラウドコンピューティングが変化する7つの方法

【51CTO.com クイック翻訳】 [[392167]] 「クラウド」という言葉は、人々が長い間し...

vpsyc: 40% オフ、US cn2 gia VPS、200Mbps 帯域幅、ネイティブ IP、月額 41 元から。夕方のピーク時の評価データを添付します。

雲創ネットワークの現在のロサンゼルス cn2 gia vps (往路は中国電信、中国聯通、CN2 G...

これまで無視されてきたQQマーケティングの再理解

現在、オンラインマーケティングを行う多くの人々がWeiboやWeChatなどの新しいメディアのマーケ...

AWSの機械学習クラウドサービスのインスタンスコストが18%下落、今年中国で開始されたばかり

AWS は最近、Amazon SageMaker 機械学習サービス用の 2 つのクラウドインスタンス...

テンセントの500億投資の「持続可能な社会価値イノベーション部門」は、事業開始から1ヶ月を迎え、社会発展の道を模索する「善良ラボ」を設立した。

重慶は、そびえ立つ山々によって雄大で高く、曲がりくねった川によって美しくしなやかです。夜になると、重...

クラウドファーストは間違いであることが多い

予測可能でステートフルなワークロードを持つ企業では、オンプレミスのコンピューティング オプションを使...

hostcram: 米国ダラスの高性能 VPS、月額 7 ドルから、2G メモリ/1 コア (i9-11900K)/40GNVMe/2T トラフィック

Hostcramは、米国中部のダラスデータセンターでVPS事業を専門に展開しています。現在、i9-1...

Webmaster Network からの毎日のレポート: クッキーが論争を巻き起こし、JD.com が新しいドメイン名を使用

1. オンライン化粧品に関する3つの大きな噂を暴く:並行輸入、偽造、高品質の模造品「ネットで売られて...

10月にオンラインローンのグループ購入はほぼ完全に失敗し、グループリーダーは巨額の個人的利益を得た

ハイトーク[グループで商品を購入すると価格が安くなり、オンラインローンをグループで借りると金利が高く...

Taobao アフィリエイトは、販売者が特別プランから撤退するリスクをどのように回避できますか?

タオバオをやる場合、誠実な業者を選ぶことが非常に重要です。一部の業者は、一定の商品販売量に達すると、...

中国モバイルゲーム産業調査レポート

モバイルゲーム資本市場は2016年に若干の減少を経験した後、2017年には逆風に逆らって新たな高値に...

Xiaoheitan: Bapingbao には、ブランドが静かに取引を成立させるのに役立つ 10 の主要な画面占有システムがあります。

月給5,000~50,000のこれらのプロジェクトはあなたの将来ですブランドの昇進は、すべての企業が...