Hadoop 分散ファイルシステム - RAID から始める

Hadoop 分散ファイルシステム - RAID から始める

ビッグデータ技術が解決しなければならない主な問題は大規模データの計算処理であるため、最初に解決すべき問題は大規模データの保存です。大規模データストレージが解決する必要がある主要な問題は 3 つあります。

データ保存容量の問題。ビッグデータはPB規模のデータを計算する問題を解決するものであり、一般的なサーバーのディスク容量は通常1〜2TBであるため、このような大量のデータをどのように保存するのでしょうか。

データの読み書き速度については、一般的なディスクの連続読み書き速度は数十MBです。この速度では、数十 PB のデータの読み取りと書き込みにはおそらく永遠にかかるでしょう。

データの信頼性の問題に関して言えば、ディスクはおそらくコンピュータ機器の中で最も脆弱なハードウェアです。ウェブサイトでは、ディスクの耐用年数は約1年です。ディスクが破損した場合、データはどうなりますか?

ビッグデータ技術が登場する前は、人々はこれらのストレージの問題に直面しており、それに対応する解決策が RAID 技術でした。

[[235495]]

RAIDから始めましょう

RAID (Redundant Array of Independent Disks) テクノロジーは、主にストレージ容量、ディスクの読み取りおよび書き込み速度を向上させ、ディスクの可用性と耐障害性を強化するために使用されます。現在、サーバーレベルのコンピューターは複数のディスク(8 台以上)の挿入をサポートしており、RAID テクノロジを使用することで、複数のディスク上のデータの同時読み取りと書き込み、およびデータのバックアップを実現できます。

図に示すように、一般的に使用される RAID テクノロジはいくつかあります。

サーバーに N 個のディスクがあると仮定します。

0 の

データがメモリ バッファからディスクに書き込まれるとき、ディスクの数に応じて N 個の部分に分割されます。これらのデータは N 台のディスクに同時に書き込まれるため、全体的なデータ書き込み速度は 1 台のディスクの N 倍になります。読み取り時も同様で、RAID0 はデータの読み取りと書き込みの速度が非常に速いですが、RAID0 ではデータのバックアップは行われません。 N 台のディスクのうち 1 台が破損すると、データの整合性が破壊され、すべてのディスク上のデータが破損します。

1.RAID1 とは

データがディスクに書き込まれると、1 つのコピーが同時に 2 つのディスクに書き込まれるため、いずれかのディスクが損傷してもデータが失われることはありません。新しいディスクを挿入すると、データをコピーして自動的に修復できるため、信頼性が極めて高くなります。

RAID10

RAID0 と RAID1 を組み合わせると、すべてのディスクが 2 つの均等な部分に分割され、両方のディスクに同時にデータが書き込まれます。これは RAID1 と同等です。ただし、各ディスクの N/2 ディスクでは、同時読み取りと書き込みに RAID0 テクノロジが使用されるため、信頼性が向上するだけでなく、パフォーマンスも向上します。ただし、RAID10 ではディスク使用率が低く、ディスクの半分がバックアップ データの書き込みに使用されます。

RAID3

一般的に、サーバー上の 2 つのディスクが同時に損傷することはありません。 1 つのディスクのみが破損した場合、破損したディスクのデータを他のディスクのデータを使用して復元できれば、信頼性とパフォーマンスを確保しながらディスクの使用率を大幅に向上できます。

ディスクにデータを書き込む際、データは N-1 個の部分に分割され、N-1 個のディスクに同時に書き込まれ、検証データは N 番目のディスクに記録されます。いずれかのディスクが破損した場合(検証データ ディスクを含む)、他の N-1 個のディスクのデータを使用して修復できます。

ただし、データが頻繁に変更されるシナリオでは、ディスクが変更されると、N 番目のディスクで検証データが書き換えられることになります。頻繁に書き込みが行われる結果、N 番目のディスクは他のディスクよりも損傷を受けやすくなり、頻繁に交換する必要があるため、RAID3 は実際にはほとんど使用されません。

RAID5

RAID3 と比較すると、RAID5 の方が一般的に使用されています。

RAID5 は RAID3 と非常に似ていますが、チェック データは N 番目のディスクに書き込まれるのではなく、スパイラル方式ですべてのディスクに書き込まれます。この方法により、チェックサム データへの変更がすべてのディスクに均等に分散され、RAID 3 がディスクを頻繁に損傷することが防止されます。

RAID6

データに高い信頼性が求められ、2 つのディスクが同時に破損した場合でも修復が必要な場合 (または、運用保守管理レベルが比較的低く、1 つのディスクが破損したが、適切なタイミングで交換されず、別のディスクが破損した場合) は、RAID6 を使用できます。

RAID6 は RAID5 に似ていますが、データは N-2 台のディスクにのみ書き込まれ、パリティ情報 (異なるアルゴリズムを使用して生成) は 2 つのディスクに螺旋状に書き込まれます。

同じディスク数 (N) の場合、さまざまな RAID テクノロジの比較を次の表に示します。

RAID テクノロジは、専用の RAID カードやマザーボードからの直接サポートなどのハードウェアで実装することも、ソフトウェアで実装することもできます。ソフトウェアでは、複数のディスクがオペレーティング システム レベルで RAID にグループ化され、論理的に単一のアクセス ディレクトリとして表示されます。 RAID テクノロジは、従来のリレーショナル データベースやファイル システムで広く使用されており、コンピュータのストレージ特性を向上させる重要な手段です。

RAID テクノロジーは、単一のサーバー上の複数のディスク上にのみアレイを形成します。ビッグデータには、より大きなストレージスペースとアクセス速度が必要です。 RAID テクノロジーの原理を分散サーバー クラスターに適用すると、Hadoop 分散ファイル システム HDFS のアーキテクチャ概念が形成されます。

<<:  エッジコンピューティングの未来: IoTだけにとどまらない

>>:  Red Hat 2018 テクノロジー オープン デー: オープンソースの本質は文化、コミュニティ、コラボレーションにあります

推薦する

MECの収益成長が加速、2025年には160億ドルを超えると予想

[[428893]] IDC の MEC 予測によると、マルチアクセス エッジ クラウド (MEC)...

B2Bプラットフォームを使用してステーショングループを構築する方法についての簡単な説明

SEO 担当者にとって、リソースはすべてであり、最高のリソースは自分の Web サイトです。しかし、...

Baiduの信頼性を高めるためのいくつかの考察

この記事は、武漢SEOクレイジーが約1か月前にA5チャットに投稿したものです。当時は比較的シンプルな...

私のSEO運用方法について簡単にお話しします

まず、ユーザー エクスペリエンスが最も重要です。検索エンジンのアルゴリズムがどのように変化しても、こ...

HTML5 は最終的に APP に取って代わるのでしょうか?モバイルインターネットは今や「左派と右派の戦い」

すべてが再び起こっている。これは、「The Gods Must Be Crazy」のモバイル インタ...

SEOサービス見積りのための5つの基準指標と5つのレベル

多くの SEO 担当者は、自分で注文を受けたいが、見積もりの​​出し方がわからないことに気付きました...

検索エンジンの外部リンク要件は量から質へ変化

SEO の作業において、外部リンクは最も簡単に制御および操作できる要素であり、検索エンジンのランキン...

コンテナを理解するには、まずその歴史から始めましょう

コンテナの歴史、開発、技術的な性質については、インターネット上にすでに多くの記事があります。ここでの...

新サイト引き継ぎ1ヶ月のまとめ

私が入社した新しい会社は、回族の手工芸品の起業プロジェクトに取り組んでいます。同社ではこれまでインタ...

クラウドコンピューティングは業界のデジタル変革を促進する

現在、新たな科学技術革命と産業変革が深まり、デジタル経済が活況を呈しており、コンピューティングパワー...

テンセントの車輪付きロボットは、トップクラスのロボット工学会議であるICRAで、柔軟に障害物を乗り越え、派手な宙返りを披露した。

6月3日、テンセントの車輪付き脚ロボット「オリー」が正式に発表された。柔軟性のある「ローラースケータ...

greengeeks-独立記念日/70% 割引コード/2.95 USD/無制限のウェブサイト構築/無料ドメイン名/SS サポート

カナダ建国 150 周年を記念して、greengeeks の無制限仮想ホスティングが 70% オフで...

VPS サーバーを Ubuntu 14.04 から Ubuntu 16.04 にアップグレード

海外のVPSや独立サーバーをよく購入する友人は、一部の販売業者が怠惰で、システムテンプレートのバージ...

NodePop - 6 ドル / 512MB RAM / 10GB HDD / 500GB ストリーミング

nodepop.com は、新しく設立された小規模なホスティング サービス会社です。現在は規模が小さ...

ローカルポータルの収益化への道

素晴らしい計画を持っているものの、利益を上げるのが遅い地域ポータルサイトは数多くあります。1~2年運...