OpenStack 環境でビッグデータ システムを実行するための 4 つの主要なストレージの問題

OpenStack 環境でビッグデータ システムを実行するための 4 つの主要なストレージの問題

[51CTO.com からのオリジナル記事] 現在、OpenStack プライベート クラウド アプリケーションは、長い期間にわたる技術の蓄積と市場の開拓を経て、製品の成熟度と顧客の認知度の面で成熟期に達しています。 OpenStack をベースとしたクラウド環境は増加していますが、多くの OpenStack クラウド環境では、AWS と同様の Elastic MapReduce、ビッグデータ用 SQL、OLAP のサポートなどのビッグデータ サービスが提供されていません。同時に、ユーザー ビジネスが徐々にクラウドに移行するにつれて、クラウド上にビッグデータ システムを展開する需要がますます一般的かつ緊急になっています。

2018年5月18日〜19日、51CTO主催のグローバルソフトウェアおよび運用技術サミットが北京で開催されました。 2日目の午前中に開催された「OpenStack イノベーションと実践」フォーラムでは、OStorage の創設者兼 CTO である Li Mingyu 氏が「OpenStack クラウド上でのビッグデータ システムの実行: 問題、方法、実践」と題した素晴らしい講演を行いました。 OpenStack クラウド環境でビッグデータ システムを実行する方法、実際の運用でよくある問題、およびこれらの問題を解決するためにオブジェクト ストレージを使用する方法について詳しく説明しました。会議後、51CTOの記者がWOT2018グローバルソフトウェアおよび運用技術サミットでの李明宇氏の講演内容をまとめました。

OpenStack環境でビッグデータシステムを実行する2つの方法

李明宇氏は以前、中国科学院ソフトウェア研究所に勤務していた。彼は科学的研究に加えて、実用的なエンジニアリング問題の解決に重点を置き、分散およびクラウド コンピューティング システムに関する関連研究開発作業を行うチームを率いました。中国科学院を退職後、李明宇氏はOpenStackなどのクラウドコンピューティングやビッグデータに関連するオープンソース技術の研究と普及に尽力し、企業に対してコンサルティング、評価などの技術サービスを提供しています。

彼はスピーチの中で、OpenStack は多くの小さなオープンソース プロジェクトを含む大規模なシステムであり、その中で最もよく知られているのは、仮想マシンを管理する Nova、ネットワークを管理する Neutron、クラウド ハード ドライブを管理する Cinder、認証を管理する Keystone、イメージとテンプレートを管理する Glance、および Swift オブジェクト ストレージの 6 つのコア プロジェクトであると述べました。

Li Mingyu 氏は、OpenStack 環境でビッグデータ システムを実行するには 2 つの方法があり、1 つ目の方法は OpenStack サービス コンポーネント Sahara をベースにしたものであると述べました。彼は、Sahara の使い方を皆に知ってもらうために、現場でデモを披露しました。 Sahara は、実際には OpenStack によって Hadoop を実行するために特別に構築されたプロジェクトです。ユーザーが使用する OpenStack クラウド環境に Sahara がデプロイされていない場合はどうなりますか?この場合、2 番目の方法を使用できます。 2 番目の方法は、Heat および Hadoop コミュニティのデプロイメント ツールを使用して、ユーザーが Hadoop/ビッグ データ システム ノードを直接管理することです。 OpenStack クラウド プラットフォームは、OpenStack Sahara に依存するだけでなく、ベアメタル上に Hadoop をインストールすることもできます。

では、この 2 つの方法のどちらが優れているのでしょうか? Li Mingyu 氏は、Sahara はクラウド コンピューティング ベンダーの視点であると分析しました。 Sahara を使用する利点は、サービス プロバイダーが Sahara に基づいてビッグ データ サービスを提供しており、ユーザーにとってより便利で、一般的に安定していることです。しかし、Sahara はサービスの種類が限られており、柔軟性も高くないため、実際にはそれほど優れているわけではありません。 Sahara を直接管理に使用しないことの利点は、ユーザーの観点から見ると、柔軟性があり、ユーザーが制御できる点ですが、ビッグデータ クラスターをユーザーが管理する必要があり、クラウド インフラストラクチャの基本的な特性を把握することが難しいという欠点があります。 「ユーザーはニーズに応じて最適な方法を選択できます。」

4つの主要なストレージの問題

現在、OpenStack は多くの部署で使用されており、使用過程で多くの疑問が生じています。 OpenStack クラウド上でビッグデータ システムを実行するときに発生する最も一般的な問題は、ストレージです。

Li Mingyu 氏は、ストレージに関して直面する最初の問題は、ブロック ストレージの冗長性、仮想マシン ブロック ストレージ/ボリュームの基礎となる冗長性、および HDFS 自体の冗長性であると述べました。仮想基盤レイヤーが Ceph を使用して仮想マシン ブロック ストレージをサポートする場合、仮想マシンのブロック デバイス/ボリュームには実際には Ceph 上に 3 つのコピーがあり、HDFS 上に 3 つのコピーがあるため、ブロック ストレージの冗長性が過剰になります。

2 番目の問題は、データ移動のオーバーヘッドが計算タスクの移動オーバーヘッドよりも大きいことです。 Hadoop クラスターは常に同じ負荷圧力に耐えるわけではありません。私たちは、Hadoop クラスターが仮想化環境で弾力性を持つようになることを期待しています。 5 ノードから 10 ノードに拡張し、次に 50 ノードに拡張し、最後に 5 ノードに縮小します。データがこれらのノードの HDFS に保存されている場合は、データを再バランスする必要があります。データ移動のオーバーヘッドは大きく、時間がかかり、ネットワークと I/O リソースを消費します。

3 番目の問題は、多くのデータ処理/分析タスクがアドホックであることです。 Hadoop クラスターまたはビッグデータ処理クラスターを使用するには、データ分析またはデータ ウェアハウスを実行するクラスターを作成します。ジョブが完了したら、クラスターを破棄できます。しかし、HDFS を使用する場合、データを保存している仮想マシンを破壊することは不可能であり、追加のオーバーヘッドも発生します。これらの費用と比較すると、ネットワーク費用は減少しており、全体的なネットワークコストも減少しています。上記の問題に対処するには、HDFS が使用されなくなった場合は、オブジェクト ストレージに置き換えることができます。つまり、クラウド環境でビッグデータ システムを実行する場合、仮想マシンは計算のみを実行し、データはオブジェクト ストレージに保存されます。

4 番目の問題は、複数のリージョンのシステムにわたってストレージ クラスターを構築することです。この問題は、OpenStack Swift オブジェクト ストレージによって解決できます。 OpenStack Swift は、複数のデータセンターと複数のリージョンにまたがるストレージ クラスターの構築をサポートできます。これにより、ユーザーはデータセンター間ビッグデータ システムを簡単に構築できるようになります。データ処理ジョブを送信する際、ユーザーはデータがどのデータセンターに保存されているかを気にする必要がなく、1 つのタスク バッチで複数のデータセンターや複数のリージョンのデータを処理できます。

上記内容は、WOT2018 グローバルソフトウェアおよび運用技術サミットにおける OStorage (Osdata) 創設者兼 CTO の Li Mingyu 氏へのインタビューに基づいて 51CTO 記者がまとめたものです。 WOT の詳細については、.com をご覧ください。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  クラウド コンピューティングの状況が決定されました。巨人たちが次に競い合うターゲットは何だろうか?

>>:  中小規模のチーム向けの Docker ベースの DevOps プラクティス

推薦する

KOL マーケティング チャネルの変換を評価、監視、促進するにはどうすればよいでしょうか?

インターネットの急速な発展により、製品が王様の時代ではなく、コンテンツが王様の時代になりました。eコ...

インターネット会議での周洪義に対する4つの不満

8月13日、中国インターネット大会が予定通り開催され、捜狐創業者の張朝陽氏と360創業者の周紅一氏に...

Kubernetes 向け Linux OS ガイド

すでに Kubernetes を調べたことがある (または、Kubernetes のデプロイメントを...

ウェブサイトのコンテンツ構造の合理化がBaiduスパイダーの進歩への道を開く

最近の多くのウェブサイトのコンテンツ構成は非常に複雑です。この複雑さはウェブサイトの表面だけでなく、...

微博マーケティングはクローズドループ時代へ加速している

新華網、北京、4月2日(周文林記者)Weiboでのワンストップショッピングはもはや遠い夢ではない。オ...

melbicom-ロシア VPS/2.9 ユーロ/KVM/2g メモリ/20g SSD/無制限トラフィック/1Gbps

ロシアの商人 melbicom (.net と .ru の両方の Web サイト) は現在、オランダ...

2019年中国のデジタルマーケティング推進トレンド!

このレポートでは、中国の広告主 110 社とデジタル マーケティング従事者 130 社にインタビュー...

エッジコンピューティングを通じてスマートシティは高度な都市計画へと移行

過去 10 年間で、多くの都市が大規模な (そして高額な)「スマート シティ」イニシアチブを立ち上げ...

レイオフ、人員削減、冬季休業、クラウド コンピューティングに何が起こったのでしょうか?

過去 2 年間の人気と比較すると、クラウド コンピューティングの魔法は効果を失いつつあります。最近、...

catalysthost-KVM 50% オフ/$5/1g メモリ/20g ハードディスク/1t トラフィック

Catalysthost は 2011 年初頭に設立され、現在は非常に評判の高い VPS プロバイダ...

テンセント電子商取引:粗利益率が低く投資額も少ないB2C企業は、ほとんどが赤字

2012年11月15日、テンセントは2012年第3四半期の財務報告書を発表しました。財務報告によると...

このウェブサイトはクラウドソーシングを利用して、消費者が写真で商品を見つけられるようにしている。

買い物中毒者は、しばしばこの問題に遭遇します。ネットで街の写真を見たり、テレビ番組や映画を見たりして...

個人ウェブマスターの成功体験: 市場を効果的にセグメント化する方法

ウェブマスター、より正確に言えば草の根ウェブマスターとして、彼の背後には優秀なチームも、強力な財政支...

Pinterest は年末までに Facebook を上回り、e コマースのソーシャル トラフィックの最大のソースになる

電子商取引の未来は Pinterest が主導することになるだろう。顧客のマーケティング戦略の最大化...