Hadoop 擬似分散セットアップ操作手順ガイド

[[207661]]

1. 準備

/opt/ディレクトリにモジュールとソフトウェアのフォルダを作成します。
- 操作権限を変更する（ルートユーザーに切り替える）

 chown -R wxt:wxt /opt/

その後、通常のユーザーに切り替える

mkdir ソフトウェア
 
 mkdir モジュール

lrzsz をインストールします (Linux でのアップロードとダウンロードに ftp を置き換えることができます)。

まずlrzszをインストールします

yum -y インストール lrzsz

ファイルをアップロードし、rz コマンドを実行します。ファイル選択ウィンドウがポップアップ表示されます。ファイルを選択し、「OK」をクリックします。

rz

ファイルをダウンロードし、szコマンドを実行します。

サイズ

2. Hadoop環境の展開 - JDK部分

ソフトウェアにjdkをアップロードする

jdkをモジュールに解凍する
- tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules/

環境変数を変更する
- ルートユーザーに切り替えて、vi /etc/profile ファイルを変更し、jdk 環境変数を設定します。

 #JAVA_HOME
 JAVA_HOME=/opt/modules/jdk1.7.0_67 をエクスポートします。
エクスポート PATH=$PATH:$JAVA_HOME/bin

/etc/profile をソースにしてファイルを有効にします
構成が成功したことを確認する
- java バージョン

Java バージョン"1.7.0_09-icedtea"  
 OpenJDK ランタイム環境 (rhel-2.3.4.1.el6_3-x86_64)
 OpenJDK 64ビットサーバー VM (ビルド 23.2-b09、混合モード)

jpsコマンドはJavaプロセスを表示できる
$JAVA_HOMEをエコーする

3. Hadoop擬似分散環境の展開 - Hadoop部分

hadoop-2.5.0.tar.gzファイルをソフトウェアにアップロードします。
ファイルをモジュールに解凍する
- tar -zxvf hadoop-2.5.0.tar.gz -C /opt/modules/

ディスク領域を節約するために、Hadoop ディレクトリをクリーンアップし、hadoop/share/doc ディレクトリを削除します。このコマンドを使用してdf -hを表示します

hadoop/etc/hadoop/hadoop-env.shファイルを変更する
hadoop/etc/hadoop/mapred-env.shファイルを変更する
hadoop/etc/hadoop/yarn-env.shファイルを変更する
Javaのインストールパスを指定する
- JAVA_HOME=/opt/modules/jdk1.7.0_67 をエクスポートします。

知らせ：
- Hadoopの4つのコアモジュールは、4つのデフォルト設定ファイルに対応しています。
- HadoopのデフォルトのファイルシステムであるHDFSは、ファイルシステムのアクセスポイントです。
- Namenodeでは、初期のHadoop 1.xではマシンポート9000が使用されていましたが、現在Hadoop 2.xでは、RPC通信メカニズムを使用して、ノード間の直接的な内部通信にポート8020を使用しています。

hadoop/etc/hadoop/core-site.xmlファイルを変更する

<プロパティ>
    <名前>fs.defaultFS</名前>
    <! --bigdata-4 は私のローカルホスト名です -->  
    <値>hdfs://bigdata-4:8020</値>
 </プロパティ>
 <プロパティ>
    <名前>hadoop.tmp.dir</名前>
    <値>/opt/modules/hadoop-2.5.0/data/tmp</値>
 </プロパティ>

知らせ：
- /tmp は一時保存ディレクトリを表します。システムが再起動するたびに、システムは事前に設定されたスクリプトに従ってシステム内のファイルを削除し、システムによって生成されたファイルパスを再カスタマイズします。 /tmp がクリアされ、データファイルのセキュリティが保証されなくなります。

hadoop/etc/hadoop/hdfs-site.xmlファイルを変更する
- HDFS ファイルストレージのコピー数を指定します。デフォルトは 3 です。ここでは、単一のマシンに対して 1 に設定されています。この数はデータノードの数よりも小さくなければなりません。

 <プロパティ>
    <名前>dfs.replication</名前>
    <値>1</値>
 </プロパティ>

hadoop/etc/hadoop/slavesファイルを変更する
- スレーブノードのマシンの場所を指定し、ホスト名を追加します。

ビッグデータ-4

フォーマット名ノード

bin/hdfs ネームノード -フォーマット

10.

起動コマンド
- sbin/hadoop-daemon.sh ネームノードを起動します
- sbin/hadoop-daemon.sh データノードを起動します

11.

HDFS外部UIインターフェースを表示する
- bigdata-04 または IP アドレスの後にポート番号 50070、外部通信 http dfs.namenode.http-address 50070
- http://bigdata-4:50070 (Windows 上でホストがローカルに設定されていない場合は、設定する必要があります)
- ページが正しく開けない場合は、ファイアウォールがオフになっているかどうかを確認してください。
  - ルートユーザーに切り替え、サービスiptablesステータス
  - ファイアウォールをオフにする chkconfig iptables off

12.

HDFS環境のテスト
- フォルダーを作成します。 HDFS には、Linux と同様に、ユーザーホームディレクトリの概念があります。
- bin/hdfs dfs -mkdir -p wxt_test/iuput

13.

HDFS にファイルをアップロードします (任意のファイルをアップロードするだけです)
- bin/hdfs dfs -put /opt/modules/hadoop-2.5.0/etc/hadoop/core-site.xml wxt_test/input/core-site.xml
- アップロードは成功し、アップロードされたファイルが HDFS 外部 UI インターフェイスに表示されます。

14.

HDFS ファイルの読み取り
- bin/hdfs dfs -text /core-site.xml
- アップロードされたファイルの内容がターミナルに表示されます。

15.

ファイルをローカルコンピューターにダウンロードします (ダウンロード先を指定し、名前を get-site.xml に変更します)。bin/hdfs dfs -get /core-site.xml /home/wxt/Desktop/get-site.xml すると、このファイルが表示され、デスクトップに名前が変更されます。

これでHadoopの擬似分散構築は完了です。

<<: ディープラーニングの分散トレーニングにおける大きなバッチサイズと学習率の関係をどのように理解すればよいでしょうか?

>>: クラウドベースのデータが現代のスタートアップを最適化