分散ストレージの技術動向(I):3つのレプリカの欠点

分散ストレージの技術動向(I):3つのレプリカの欠点

分散ストレージの SDS コンセプトは優れており、水平拡張機能が優れており、ノードの自動追加と削除が利点ですが、従来の集中型ストレージ (ディスク アレイ) と比較すると、安定性とパフォーマンスにはまだ明らかな欠点があります。 Ceph や VSAN に代表されるソフトウェア定義ストレージ (SDS) は、市販の x86 サーバー、ソリッド ステート ドライブ、機械式ハード ドライブなどのハードウェア リソースをシン プロビジョニングされたリソース プールに統合し、ブロック ストレージ、ファイル ストレージ、オブジェクト ストレージ、Restful API などのさまざまなインターフェイスを通じてストレージ サービスを提供する、水平方向に拡張可能で、自動的にバランス調整され、自己修復する分散ストレージ システムです。

Ceph、VSAN、またはその進化版のいずれであっても、ネットワーク RAID を使用して 3 つのコピーまたは消去コードで表されるデータ保護を実現するという共通の技術的特徴があります。 3 つのコピーは、小さなデータ ブロックの読み取りおよび書き込みパフォーマンスに特定の要件があるアプリケーション シナリオで使用されますが、消去コードは、ビデオ データ、バックアップ、アーカイブなどの大きなファイルのシナリオに適しています。 3 つのコピーを例にとると、ビジネス データは固定サイズ (通常 4 MB) のデータ ブロックに分割されます。各データ ブロックは、異なるノード上の 3 つのコピーに保存されます (図 1 を参照)。分散メカニズムは、コンシステント ハッシュ アルゴリズム (Consistent Hashing) または CRUSH アルゴリズムに基づいており、データの各コピーを異なるノードと異なるディスクにランダムに分散して、自動データ バランスと水平拡張を実現します。ディスクまたはノードに障害が発生したり破損したりすると、システムは事前に設定されたルールに基づいてデータの新しいコピーを自動的に再作成します。これをデータ再構築と呼びます。


図1 分散ストレージレプリケーションのメカニズム

分散ストレージの SDS コンセプトは優れており、水平拡張機能が優れており、ノードの自動追加と削除が利点ですが、従来の集中型ストレージ (ディスク アレイ) と比較すると、安定性とパフォーマンスにはまだ明らかな欠点があります。

まず、パフォーマンスの面では、3 つのコピーの分散ストレージは、不均一な IO 分散とバレル効果の影響を受けやすく、大きな遅延と応答の低速化につながります。 Ceph を例にとると、複数の基本ストレージ ユニットである Placement Group (PG) が OSD にカプセル化され、各 OSD は機械的なハード ディスク HDD に直接対応します。主流の 7200 rpm HDD はロボット アームのアドレス指定によって制限されており、単一ディスクの読み取りおよび書き込みパフォーマンスはわずか 120 IOPS 程度です。データは OSD 上でランダムに分散されるため、単一のハードディスク上の IO 負荷は平均値に固定されず、通常は正規分布を示します。正規分布のテール効果により、少数の HDD の IO 負荷が平均値と単一ディスクのパフォーマンスしきい値を大幅に超過し、輻輳が発生します。さらに、データの整合性を確保するために、分散ストレージはデータの整合性チェック、つまりデータ スクラブ/ディープ スクラブ操作を定期的に実行する必要があります。これらの操作により追加の IO 負荷が発生し、ディスクの輻輳が悪化する可能性があります。バケツ効果の原理によれば、システムのパフォーマンスはクラスター内で最もパフォーマンスの低いディスクに依存します。したがって、個々のディスクが遅いと、システム全体のパフォーマンスが大幅に低下します。結果として、大きな遅延、OSD 疑似停止、不要なデータ再構築のトリガーが発生する可能性があります。

第二に、3 つのコピーの分散ストレージも安定性の問題に直面しています。ストレージ拡張、ハードディスクまたはノードの損傷、ネットワーク障害、OSD 疑似停止、ディープスクラブなどの複数の要因が組み合わさると、複数の OSD が同時に再構築され、再構築ストームが発生する可能性があります。データ再構築プロセス中、再構築タスクはシステムのメモリ、CPU、およびネットワーク リソースを消費するだけでなく、ストレージ システムに追加の IO ワークロードをもたらし、ユーザー ワークロード用のストレージ リソースを圧迫します。この場合、ユーザーは、システムの IO 遅延が大きく、応答が遅いことに気付くことが多く、少なくとも業務の中断を引き起こす可能性があります。深刻な場合には、システムが不安定な状態に陥り、OSD が繰り返しフリーズして再起動し、データの損失やシステムクラッシュにつながる可能性もあります。

さらに、3 つのコピーの分散ストレージでは、データ損失のリスクも発生します。 3 つのコピーにより、最大 2 台の HDD が同時に損傷するのを防ぐことができます。システムが拡張モードの場合、またはノードがメンテナンス モードの場合、HDD に障害が発生すると、システムは緊急状態になります。 2 台の HDD が同時に故障すると、データが失われる可能性があります。ある程度の規模のストレージ システムでは、特にシステムの稼働開始から 2 ~ 3 年経過すると、2 つのハードディスクの機械的な障害が同時に発生することは避けられません。ハードウェアが古くなると、二重または三重のディスク障害が発生する可能性が急激に増加します。さらに、システムで大規模な停電やストレージノードの予期せぬダウンタイムが発生すると、複数の機械式ハードディスクが同時に損傷し、3 コピー分散ストレージのデータセキュリティが危険にさらされる可能性があります。

3 つのコピーに潜む危険とリスクに対処する準備はできていますか?詳細については、「分散ストレージの技術動向(II):デュアルRAID」をご覧ください。

<<:  .NET で Kafka を使用する方法

>>:  Kingsoft Cloud City Brainが始動:市長と市民の視点からデジタル経済の発展を促進

推薦する

2018年、3つの大きな「破産」ライブ放送

今年最もハマるものは何ですか?意外だが妥当な答えは「生放送」だ。その年、最もハマったライブ配信ルーム...

分散キャッシュの高可用性ソリューションを実現する方法

[[284637]]データベース ディスク IO の同時実行性の増加によりシステムのパフォーマンスの...

トムソン・ロイター: ストリーミングデータをコスト効率よく読み込み、処理

トムソン・ロイターは、企業や専門家向けのインテリジェント情報を提供する世界有数の企業であり、世界で最...

SEOの考え方を活用してネガティブな情報を巧みに解決する方法

運営の過程で、企業やブランドが悪いニュースに遭遇することは避けられません。その一部は、当社のサービス...

Iniz-4Gメモリ/SSD/月額6.78ドル/オランダデータセンター

iniz は英国で正式に登録された会社です: 会社番号 08199520、登録事務所住所 45-15...

Google Cloud——Tencent Cloud の新たな仲間か?

一方、グーグルは本社があるカリフォルニアで大規模な開発計画を立てている。一方、同社のクラウドコンピュ...

ホストキー: オランダ/ロシア、スーパー GPU サーバー、AMD Ryzen 9 5950X+2*A4000 または 2*RTX4090+128G メモリ...

Hostkeyは現在、GPUサーバーを提供しています。コンピュータールームは、オランダ、ロシア、フィ...

Sina.com の改訂された CMS ウェブサイトに関する私の意見

Sina.com がデザインを一新しました。かつては中国のウェブサイトの中で最も尊敬されていたこの「...

ブランドは春節マーケティングをどのように実施すべきでしょうか?

2017年と比較すると、2018年の春節マーケティングは精彩を欠いていました。毎年1月下旬になると、...

ステーショングループを運営する上での注意点をまとめました

SEO 業界の競争が激化する中、一部の SEO 担当者は利益を最大化するための近道を探したり、検索エ...

検索エンジン最適化の観点から見た HTML5 技術の 3 つの改善点の分析

昨日、Google は再び HTML5 テクノロジーを使用して検索ホームページのロゴをデザインしまし...

ウェブサイトのポップアップデザインは「何度も禁止されているが、いまだに存在している」。実は、非常に多くのメリットがあることが判明した。

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますウェブサイ...

新興ブランドクラウドインサイトレポート

2018年通年と上半期に1000万元以上を調達し、IPOした新興ブランドのうち、食品・飲料、家電、美...

レンタカー業界の熾烈な競争の背後にある資金調達のボトルネック:資金調達が主な原動力

潘偉と趙娜が上海と北京から報告した。 「米国には2億台の自家用車があり、そのうち約300万台をレンタ...

新しい鉄道チケットシステムの第1段階の費用は3億元以上:アップグレード後の苦情

新しい鉄道乗車券システムの第1段階の費用は3億人民元以上成都と北京の記者、李文毅氏と李沢民氏ネット上...