Hadoop 擬似分散セットアップ操作手順ガイド

Hadoop 擬似分散セットアップ操作手順ガイド

[[207661]]

1. 準備

  • /opt/ディレクトリにモジュールとソフトウェアのフォルダを作成します。
    • 操作権限を変更する(ルートユーザーに切り替える)
  1. chown -R wxt:wxt /opt/
  • その後、通常のユーザーに切り替える
  1. mkdir ソフトウェア
  2.  
  3. mkdir モジュール
  • lrzsz をインストールします (Linux でのアップロードとダウンロードに ftp を置き換えることができます)。

まずlrzszをインストールします

  1. yum -y インストール lrzsz
  • ファイルをアップロードし、rz コマンドを実行します。ファイル選択ウィンドウがポップアップ表示されます。ファイルを選択し、「OK」をクリックします。
  1. rz
  • ファイルをダウンロードし、szコマンドを実行します。
  1. サイズ

2. Hadoop環境の展開 - JDK部分

1.

  • ソフトウェアにjdkをアップロードする

2.

  • jdkをモジュールに解凍する
    • tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules/

3.

  • 環境変数を変更する
    • ルートユーザーに切り替えて、vi /etc/profile ファイルを変更し、jdk 環境変数を設定します。
  1. #JAVA_HOME
  2. JAVA_HOME=/opt/modules/jdk1.7.0_67 をエクスポートします。
  3. エクスポート PATH=$PATH:$JAVA_HOME/bin

4.

  • /etc/profile をソースにしてファイルを有効にします
  • 構成が成功したことを確認する
    • java バージョン
  1. Java バージョン"1.7.0_09-icedtea"  
  2. OpenJDK ランタイム環境 (rhel-2.3.4.1.el6_3-x86_64)
  3. OpenJDK 64ビットサーバー VM (ビルド 23.2-b09、混合モード)
  • jpsコマンドはJavaプロセスを表示できる
  • $JAVA_HOMEをエコーする

3. Hadoop擬似分散環境の展開 - Hadoop部分

1.

  • hadoop-2.5.0.tar.gzファイルをソフトウェアにアップロードします。
  • ファイルをモジュールに解凍する
    • tar -zxvf hadoop-2.5.0.tar.gz -C /opt/modules/

2.

  • ディスク領域を節約するために、Hadoop ディレクトリをクリーンアップし、hadoop/share/doc ディレクトリを削除します。このコマンドを使用してdf -hを表示します

3.

  • hadoop/etc/hadoop/hadoop-env.shファイルを変更する
  • hadoop/etc/hadoop/mapred-env.shファイルを変更する
  • hadoop/etc/hadoop/yarn-env.shファイルを変更する
  • Javaのインストールパスを指定する
    • JAVA_HOME=/opt/modules/jdk1.7.0_67 をエクスポートします。

4.

  • 知らせ:
    • Hadoopの4つのコアモジュールは、4つのデフォルト設定ファイルに対応しています。
    • HadoopのデフォルトのファイルシステムであるHDFSは、ファイルシステムのアクセスポイントです。
    • Namenodeでは、初期のHadoop 1.xではマシンポート9000が使用されていましたが、現在Hadoop 2.xでは、RPC通信メカニズムを使用して、ノード間の直接的な内部通信にポート8020を使用しています。

5.

  • hadoop/etc/hadoop/core-site.xmlファイルを変更する
  1. <プロパティ>
  2. <名前>fs.defaultFS</名前>
  3. <! --bigdata-4 は私のローカルホスト名です -->  
  4. <値>hdfs://bigdata-4:8020</値>
  5. </プロパティ>
  6. <プロパティ>
  7. <名前>hadoop.tmp.dir</名前>
  8. <値>/opt/modules/hadoop-2.5.0/data/tmp</値>
  9. </プロパティ>

6.

  • 知らせ:
    • /tmp は一時保存ディレクトリを表します。システムが再起動するたびに、システムは事前に設定されたスクリプトに従ってシステム内のファイルを削除し、システムによって生成されたファイル パスを再カスタマイズします。 /tmp がクリアされ、データ ファイルのセキュリティが保証されなくなります。

7.

  • hadoop/etc/hadoop/hdfs-site.xmlファイルを変更する
    • HDFS ファイル ストレージのコピー数を指定します。デフォルトは 3 です。ここでは、単一のマシンに対して 1 に設定されています。この数はデータノードの数よりも小さくなければなりません。
  1. <プロパティ>
  2. <名前>dfs.replication</名前>
  3. <値>1</値>
  4. </プロパティ>

8.

  • hadoop/etc/hadoop/slavesファイルを変更する
    • スレーブ ノードのマシンの場所を指定し、ホスト名を追加します。
  1. ビッグデータ-4

9.

  • フォーマット名ノード
  1. bin/hdfs ネームノード -フォーマット

10.

  • 起動コマンド
    • sbin/hadoop-daemon.sh ネームノードを起動します
    • sbin/hadoop-daemon.sh データノードを起動します

11.

  • HDFS外部UIインターフェースを表示する
    • bigdata-04 または IP アドレスの後にポート番号 50070、外部通信 http dfs.namenode.http-address 50070
    • http://bigdata-4:50070 (Windows 上でホストがローカルに設定されていない場合は、設定する必要があります)
    • ページが正しく開けない場合は、ファイアウォールがオフになっているかどうかを確認してください。
      • ルートユーザーに切り替え、サービスiptablesステータス
      • ファイアウォールをオフにする chkconfig iptables off

12.

  • HDFS環境のテスト
    • フォルダーを作成します。 HDFS には、Linux と同様に、ユーザー ホーム ディレクトリの概念があります。
    • bin/hdfs dfs -mkdir -p wxt_test/iuput

13.

  • HDFS にファイルをアップロードします (任意のファイルをアップロードするだけです)
    • bin/hdfs dfs -put /opt/modules/hadoop-2.5.0/etc/hadoop/core-site.xml wxt_test/input/core-site.xml
    • アップロードは成功し、アップロードされたファイルが HDFS 外部 UI インターフェイスに表示されます。

14.

  • HDFS ファイルの読み取り
    • bin/hdfs dfs -text /core-site.xml
    • アップロードされたファイルの内容がターミナルに表示されます。

15.

  • ファイルをローカル コンピューターにダウンロードします (ダウンロード先を指定し、名前を get-site.xml に変更します)。bin/hdfs dfs -get /core-site.xml /home/wxt/Desktop/get-site.xml すると、このファイルが表示され、デスクトップに名前が変更されます。

これでHadoopの擬似分散構築は完了です。

<<:  ディープラーニングの分散トレーニングにおける大きなバッチサイズと学習率の関係をどのように理解すればよいでしょうか?

>>:  クラウドベースのデータが現代のスタートアップを最適化

推薦する

独自のウェブサイトを開発し、着実かつ迅速にランキングを上げる方法

はじめに:これまでのウェブサイトの SEO プロモーションと最適化では、多くのウェブマスターは、ウェ...

オンラインで新年を祝う新しい方法:春節期間中の若者のインターネット生活を理解する!

春節がインターネットと出会うとき、新年の雰囲気がオフラインからオンラインへと広がります。同じ新年の習...

閉じ込められた獣か、それとも温かい水の中のカエルか?小規模ネットワーク企業の状況に関する簡単な議論

3つの超巨大企業と多くの強力な企業は私とは何の関係もありません。小さなインターネット企業の全体的な能...

データセンターは消滅するのでしょうか?アナリストのクラウドコンピューティング予測はそうではない

より多くの企業がワークロードをパブリック クラウドに移行するにつれて、企業のデータ センターを売却し...

IoT革命: エッジコンピューティングの力

エッジ コンピューティングは、モノのインターネット (IoT) におけるデータの処理および管理の方法...

ウェブマスターネットワークレポート:垂直型B2Cは混乱しており、2345のウェブサイトナビゲーションは厄介な状況にあります

1. 2345ナビゲーションウェブサイトは厄介な状況に陥っている:パン・シェンドンは360による買収...

DMIT: 日本 cn2 gia vps (100M 帯域幅)、ハイエンド高速ネットワーク、50% 割引、年間 197 ドルから

DMIT は現在、日本の東京データセンターのプレミアム シリーズ VPS を 50% 割引で提供して...

ウェブマスターネットワークレポート:高級品電子商取引ビジネスは暗い、WeChatには抜け穴があるかもしれない

1. Sina Weiboが注文状況情報をプッシュ、Yihaodianが最初にテスト7月8日、易邦電...

おすすめ: Pacific Host - 30% オフ / 仮想ホスト / VPS / サーバー

割引コード: ホリデー、生涯 30% 割引、仮想ホスティング、VPS、サーバー、商用ホスティングを一...

仮想化とそのセキュリティについて話す

仮想化とは、ハードウェア エンジニアリングとソフトウェア エンジニアリングを連携させて仮想マシン (...

厳選:今年最も安い香港 VPS のおすすめ!

この記事の目的は、最も安価な香港の VPS 販売業者のグループを皆様にお勧めすることです。市場に出回...

IDC ホワイト ペーパーによるデジタル政府業務の進化: クラウド コンピューティングの導入

長年にわたる情報構築を経て、中国のデジタル政府業務は新たな段階に入った。国務院弁公庁が昨年発表した「...

百度緑大根アルゴリズムアップデート:低品質のソフトテキストサイトは罰せられる

Baidu の Green Radish アルゴリズムが最近更新され、多くのウェブサイト所有者に影響...

ピークサーバー - $10/年/128M メモリ/5G ハードドライブ/100G トラフィック/ダラス

Peakservers は、256M メモリの OVZ を年間 6 ドルでずっと販売してきましたが、...