分散ファイルシステムHDFSとその簡単な使い方

分散ファイルシステムHDFSとその簡単な使い方

現代のエンタープライズ環境では、大量のデータを保存するには単一のマシンの容量では不十分なことが多く、マシン間のストレージが必要になります。クラスター全体に分散されたファイルを管理するファイル システムは、分散ファイル システムと呼ばれます。

ハードウェア

HDFS (Hadoop Distributed File System) は、Apache Hadoop プロジェクトのサブプロジェクトです。 Hadoop は、ストレージ システムとして HDFS を使用する大規模なデータ (TB や PB など) を保存するのに非常に適しています。 HDFS は複数のコンピュータを使用してファイルを保存し、統合されたアクセス インターフェイスを提供します。

HDFSはGoogleの論文「Google File System」に基づいて設計されています。

HDFS の 4 つの基本コンポーネント: HDFS クライアント、ネームノード、データノード、セカンダリ ネームノード。

クライアント

クライアントはクライアントです。 HDFS クライアント ファイルのセグメンテーション。ファイルを HDFS にアップロードする場合、クライアントはファイルをブロックに分割して保存します。クライアントは、HDFS の起動やシャットダウンなど、HDFS を管理およびアクセスするためのいくつかのコマンドを提供します。

ネームノード

NameNode はマスターであり、監督者であり、管理者です。 HDFS メタデータ (ファイル パス、ファイル サイズ、ファイル名、ファイル権限、ファイル ブロック スライス情報) を管理します。

NameNode はブロック レプリカ戦略を管理します。デフォルトでは 3 つのレプリカがあり、クライアントの読み取りおよび書き込み要求を処理します。

データノード

DataNode はスレーブです。 NameNode がコマンドを発行し、DataNode が実際の操作を実行します。

DataNode は実際のデータ ブロックを保存し、データ ブロックに対して読み取り/書き込み操作を実行します。ブロック情報を定期的にネームノードに報告します。

セカンダリネームノード

SecondaryNameNode は NameNode のバックアップではありません。 NameNode に障害が発生した場合、すぐに NameNode を交換してサービスを提供することができません。

NameNode を支援し、そのワークロードを共有します。緊急時には、NameNode の復元を支援できます。

コピーメカニズム

HDFS は、大規模なクラスター内のマシン間で非常に大きなファイルを確実に保存するように設計されています。各ファイルは、ブロックと呼ばれる一連のデータ ブロックとして保存されます。最後のものを除いて、すべてのデータ ブロックのサイズは同じです。

フォールト トレランスのため、ファイルのすべてのブロックにコピーが存在します。ブロック サイズとレプリケーション ファクターはファイルごとに設定できます。

hadoop2 では、ファイルのデフォルトのブロック サイズは「128M」(134217728 バイト) です。

上の図に示すように、300 MB のファイル a.txt が HDFS にアップロードされ、128 MB のブロックに分割する必要があります。 128M未満の部分は別のブロックに移動されます。

HDFS 基本コマンド

HDFSの簡単な使い方

デプロイされたサービスによると、HDFS ルート ディレクトリは hdfs://192.168.147.128:9820 です。次に、次のコマンドに示すように、ルート ディレクトリの下にサブディレクトリ ユーザーを作成します。

  1. [hadoop@node01 ~]$ hadoop fs -mkdir /ユーザー 

次に、Hadoop ページで HDFS を開きます。

この時点でユーザー フォルダーが表示されます。

次に、300M のファイルを HDFS のユーザー フォルダーにアップロードします。

すると、アップロードしたファイルが Hadoop ページに表示されます。

現時点では3つのブロックに分かれています。

ダウンロードするにはダウンロードをクリックしてください。

<<:  Amazon と Red Hat が AWS 上の Red Hat OpenShift コンテナ プラットフォームのマネージド サービスを発表

>>:  ハイブリッド マルチクラウドがクラウドへの正しい道である理由は何ですか?

推薦する

コンテンツこそが王様であるという原則を守り、優れたコンテンツを開発する

コンテンツこそが王様という考え方は業界でますます受け入れられ、SEO の典型的な例とみなされるように...

Qyer: トラフィックの収益化は依然として構造化されたUGCコンテンツに依存している

近年、セルフガイドツアーや海外旅行というコンセプトの関連製品は数多く登場しているが、Qunarなど初...

アリババDAMOアカデミーが中国コミュニティ向けに最大の事前学習済み言語モデルPLUGをリリースし、CLUEカテゴリーリストで新記録を樹立

4月19日、アリババDAMOアカデミーは、中国コミュニティ向け最大規模の事前トレーニング済み言語モデ...

外部リンクを構築する手順は、表面から内部まで2つのポイントに従う必要があります。

今日は、外部リンク構築の顔と内部の問題についてお話ししたいと思います。顔と内部とは何でしょうか。それ...

ホストオンはどうですか?ロサンゼルスデータセンターのAMDプラットフォームVPSのレビュー:10G帯域幅、Disney\netflix\chatgptのロック解除、その他多数

9月にホストは元のDedipathから退去し、すべてのサーバーは新しいコンピュータルームに移行されま...

クラウドコンピューティング革命は過小評価されてきたが、新しいコンピューティングシステムが登場している。

11月3日、2022年雲奇カンファレンスにおいて、アリババクラウドインテリジェンスの社長である張建鋒...

#推奨 VPS# shockhosting - $3.47/KVM/1G メモリ/20gSSD/1T トラフィック/ロサンゼルス + ニュージャージー

shockhosting の KVM 仮想 VPS はもともと高価ではなく、今回は 25% の割引が...

世界最大の教師向けソーシャルネットワークは、最大46%の利益率でとんでもない利益を上げている

2月9日、海外メディアの報道によると、教師分野に特化した英国のソーシャルネットワーキングサイトTES...

BBRとRuisuを一文でインストールする簡単なチュートリアル

BandwagonHost VPS に BBR をインストールして TCP 最適化を実装し、Ruis...

ブランドマーケティング: 顧客の携帯電話にマーケティングをもたらす

はじめに:企業はマーケティング戦線を顧客の携帯電話にまで拡大しています。モバイルインターネットの利用...

Dapr 可観測性分散トレース

アプリケーションを構築する場合、システムの動作を理解することは、アプリケーションを操作する上で重要な...

Containerd は Docker と同じくらい簡単に使用できますか?

[[419814]]先ほど、ctr を使用して containerd イメージ コンテナーを管理する...

Baiduのウェブサイトについて話すと、コレクションは良いが、キーワードのランキングは下がっている

最近、多くの初心者ウェブマスターの友人からいつも次のような質問を受けます。「私たちのウェブサイトは ...

OpenHarmony 分散ソフトバスプロセス分析 v1.0丨1。発見終了、リリースサービス

[[408690]]詳細については、以下をご覧ください。 51CTOとHuaweiが共同で構築したH...

映画やテレビ作品の権利者は「剣ネット作戦」を利用して権利を守り、Fengxing.comは調査を受けた。

新華社世論、北京、7月9日:今年、国の「剣ネット作戦」により著作権侵害の取り締まりが強化され、インタ...