建築家必読シリーズ: 分散ファイルシステム HDFS の解釈

建築家必読シリーズ: 分散ファイルシステム HDFS の解釈

Hadoop エコシステムでは、Hadoop 分散ファイル システム (HDFS) が非常に重要なリンクです。ビッグデータ リソース プールを管理し、関連するビッグデータ分析アプリケーションをサポートするための信頼性の高いツールを提供します。分散ストレージの分野でも HDFS は重要な役割を果たしており、システム アーキテクトが理解しなければならない分散ファイル システムの 1 つです。

HDFSの仕組み

HDFS は、コンピューティング ノード間の高速データ転送をサポートします。初期の段階では、大規模なデータセットの並列計算用のプログラミング フレームワークである MapReduce と密接に連携していました。

HDFS はデータを受信すると、情報を個々のブロックに分割し、クラスター内の異なるノードに分散して、効率的な並列処理を可能にします。

さらに、HDFS は高度な耐障害性を備えるように特別に設計されています。 HDFS は、各データ セグメントを複数回複製し、そのレプリカを各ノードに配布して、少なくとも 1 つのレプリカを他のサーバー ラックに配置できます。したがって、クラッシュしたノードのデータはクラスター内の他の場所でも見つかる可能性があります。これにより、データの復元中でも処理を続行できるようになります。

HDFS はマスター/スレーブ アーキテクチャを使用します。元のバージョンでは、各 Hadoop クラスターは NameNode (ファイル システム操作を管理する) とサポートする DataNode (個々のコンピューティング ノード上のデータ ストレージを管理する) で構成されていました。これらの HDFS 要素を組み合わせることで、大規模なデータ セットを持つアプリケーションがサポートされます。

このマスター ノードの「データ ブロック」アーキテクチャは、Google ファイル システム (GFS) と IBM の General Parallel File System (GPFS) からいくつかの設計ガイドラインを採用しています。 GFS は、大量のデータにアクセスする大規模な分散アプリケーション向けのスケーラブルな分散ファイル システムです。安価な汎用ハードウェア上で動作し、フォールトトレランスを提供し、多数のユーザーに全体的に高いパフォーマンスのサービスを提供できます。 GPFS は、クラスター環境向けに特別に設計された、高性能でスケーラブルな並列ファイル システムです。クラスター内の複数のノード間で共有ファイル システム内のファイルへの高速アクセス操作を実装し、安定した障害回復およびフォールト トレランス メカニズムを提供できます。さらに、HDFS は Portable Operating System Interface (POSIX) モデルと互換性がありませんが、いくつかの側面では POSIX 設計スタイルを反映しています。

HDFSアーキテクチャ図 - アプリケーションはクライアントを介してNameNodeおよびDataNodeと対話します

HDFS を使用する理由

HDFS は当初、Yahoo の広告サービスと検索エンジンのニーズを満たすために開発されました。他の Web 指向の企業と同様に、Yahoo は自社のアプリケーションにアクセスするユーザー数の増加に対処しなければならず、それらのユーザーが生成するデータはますます増えていました。その後、Facebook、eBay、Twitter などの企業も、同じニーズに対応するためにビッグデータ分析の基盤として HDFS を使い始めました。

しかし、HDFS はそれ以上の用途に役立ちます。前述の大規模 Web 検索は、データ集約型並列コンピューティングに分類できます。さらに、HDFS は、気象計算などの計算集約型の並列計算アプリケーション シナリオでもよく使用されます。また、3D モデリングやレンダリングなど、データ集約型と計算集約型の混合シナリオでも広く使用されています。 HDFS は、多くのオープンソース データ ウェアハウス (データ レイクと呼ばれることもあります) の中核でもあります。

HDFS は、一般的な安価なマシンで実行できるという重要な機能を備えているため、大規模な導入によく使用されます。また、Web 検索や関連アプリケーションを実行するシステムでは、数百 PB や数千ノードに拡張できる必要がある場合が多いため、システムは簡単に拡張できる必要がありますが、HDFS はまさにその点を備えています。さらに、この規模ではサーバー障害が頻繁に発生するため、HDFS が提供するフォールト トレランスは、この点で非常に価値があります。

HDFSシナリオには適用されません

まず、HDFS は、リアルタイム クエリなど、レイテンシ要件が高いシナリオには適していません。レイテンシの点では、HDFS に大きな利点はありません。第二に、HDFS は多数の小さなファイルの保存をサポートするのも困難です。 Hadoop システムでは、「小さなファイル」は通常、HDFS のブロック サイズ (デフォルトでは 64 MB) よりもはるかに小さいファイルとして定義されます。各ファイルは独自の MetaData メタデータを生成するため、Hadoop はこの情報を Namenode を通じて保存します。小さなファイルが多すぎると、NameNode のメモリを大量に占有しやすくなり、シーク時間が読み取り時間を超え、システムにパフォーマンスのボトルネックが発生します。

さらに、HDFS はマルチユーザー書き込みをサポートしておらず、ランダムなファイル変更を実行することはできません。ファイルの末尾に追加する方法、つまり追加によってファイルを追加する方法のみがサポートされています。 HDFS は、半構造化データと非構造化データの保存に適しています。データが厳密な構造特性を持つ場合、強制的に HDFS を使用することは不適切です。 ***、HDFS は TB および PB レベルのビッグデータ処理に適しており、ファイル数は通常 100 万を超えます。データ量が少ない場合は、HDFS を使用する必要はありません。

HDFS と Hadoop の歴史

ここで、いくつかの重要な時点について簡単に説明します。 2006 年に Apache Hadoop プロジェクトが正式に開始され、HDFS と MapReduce は独立して開発され始めました。このソフトウェアは、さまざまな業界のビッグデータ分析プロジェクトで広く使用され始めています。 2012 年に、HDFS と Hadoop バージョン 1.0 がリリースされました。

2013 年、Hadoop 2.0 にユニバーサル YARN リソース マネージャーが追加され、MapReduce と HDFS が効果的に分離されました。それ以来、Hadoop はさまざまなデータ処理フレームワークとファイルシステムをサポートしてきました。 MapReduce は Apache Spark に置き換えられることが多いですが、HDFS は依然として Hadoop の一般的なファイル形式です。

4 回のアルファ リリースと 1 回のベータ リリースを経て、Apache Hadoop 3.0.0 は、追加の NameNode、消失訂正符号機能、およびより高度なデータ圧縮のサポートを含む HDFS の機能強化を備え、2017 年 12 月に一般公開されました。同時に、LinkedIn のオープンソース Dr. Elephant や Dynamometer パフォーマンス テスト ツールなどの HDFS ツールの進歩により、HDFS はさらなる開発実装をサポートできるようになりました。

<<:  Kafka はどのようにして 1 秒間に 1,500 万件のメッセージを処理するのでしょうか?

>>:  Windows 仮想マシンを一括でチェックおよび修復する方法

推薦する

ninjahawk-512m メモリ KVM/25g ハードディスク/500g/Phoenix/6.5 USD

Ninjahawk は 2008 年に設立された民間企業です。誰もが言うようにワンマン企業ではありま...

テンセント、フィッシングサイトとしてQQの大規模データ漏洩に反応

大規模なQQデータ漏洩により、パスワードや友達サークルなどの個人情報を閲覧できる可能性があると報告さ...

天虹基金を管理するアリババは名ばかりの銀行だ。

10月9日夜、業界では突然、衝撃的なニュースが飛び込んできた。アリペイの親会社である浙江アリババ電子...

2022 年に予測される VMware の 5 つのトレンド

新年の初め、2022年という新しい年を迎えるにあたり、私たちが目にするのは変化と課題です。 COVI...

フレームホスティング - 2 ドル / KVM / 256 MB メモリ / 50 GB ハードディスク / 5 T トラフィック / ロサンゼルス

昨年HostCatで一度flamehostingを紹介しましたが、今日もそれについてお話しします。公...

360 Searchの成長が加速、Baiduは頻繁に調整

最近、業界で注目を集めている「3B戦争」が過熱している。国内の権威あるトラフィック統計機関であるCN...

蒼井そらが下着を販売、宣伝効果はあるのか?

国境を越えた交渉は今とても人気があります。最もがっかりした越境ビジネスは何ですか? 彼女が作った映画...

スムーズな運転、華雲データと盛世大連が提携し自動車サービス向けインテリジェントソリューションを模索

5G、ビッグデータ、IoTなどの最先端技術の発展により、新しいテクノロジーがもたらす可能性は、旅行や...

2022 年にハイブリッドおよびマルチクラウド戦略を実装する際に考慮すべき重要な要素

クラウド移行の流行はほぼ終わりました。ほとんどの企業はクラウドを導入しており、新しいモデルによってこ...

中国医療のための優れたコンテンツトレーニングの作成の感想:地に足をつけてオンラインマーケティングを実行する

トレーニングの背景: これはまたもやばかげたトレーニング セッションでした。講師はあまりにも多くのト...

WaveCom-エストニア/月額5.6ドル特別価格kvm仮想VPS(1Gメモリ)

Wavecom は、エストニアの老舗企業 (登録番号: 10756058) で、2001 年から事業...

クラウドコンピューティング時代のデータベース運用について簡単に解説

これまで、企業が災害復旧 (DR) インフラストラクチャを構築したい場合、それはスタンドアロンの施設...

Microsoft Office 365 は、エンタープライズ デジタル ミドル プラットフォームという大きな敵に直面しています。

マイクロソフトは、企業の共同オフィスのニーズを満たすために Office 365 をリリースしました...

私のSEO運用方法について簡単にお話しします

まず、ユーザー エクスペリエンスが最も重要です。検索エンジンのアルゴリズムがどのように変化しても、こ...