Hadoop分散クラスタを構築し、ビッグデータに取り組む方法を教えます

いよいよビッグデータで遊び始めます。以前はhaoopエコシステムについてあまり知りませんでしたが、今ではそれをデータセンターとして完全に使用する必要があります。これはhaoopに関する最初の記事です。今後はビッグデータ関連の記事をたくさん書くことになると思います。

Hadoop を構築するには 3 つの方法があります。スタンドアロンバージョンは開発とデバッグに適しています。疑似分散バージョンはクラスター学習のシミュレーションに適しています。完全に分散されたバージョンが本番環境で使用されます。このドキュメントでは、1 つのマスターノードと 3 つのデータノードを例として、完全に分散された Hadoop クラスターを構築する方法について説明します。

[[212522]]

基本環境

環境の準備

1. ソフトウェアバージョン

4 台のサーバーは、次のシステムで構成されています: centos6.5、メモリ: 1G、ハードディスク: 20G
4 つのサーバーに割り当てられた IP アドレス: 192.168.0.71/72/73/74
計画: 71 はマスターノードと hadoop-master として使用され、他の 3 つはデータノード 72、73、74 は hadoop-salve1~3 として使用されます。

jdkとビルドは一致しているので、バージョン1.7を使用してください。

Hadoop はバージョン 2.7.3 を使用します。ダウンロードアドレス: http://apache.claz.org/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

2. ホスト構成とホスト名（4台のマシン）

4つのサーバーのホストファイルを変更する

vim /etc/hosts  
 192.168.0.71 hadoopマスター 
 192.168.0.72 hadoop-スレーブ1  
 192.168.0.73 hadoop-スレーブ2  
 192.168.0.74 スレーブ3

サーバーのホスト名を例に挙げます: HOSTNAME, master

 vi /etc/sysconfig/ネットワーク 
ホスト名=hadoop-master

変更は再起動後に有効になります。再起動が完了したら、他のスレーブサーバーの名前を hadoop-slave1~3 に変更します。

3. サーバーにJDKをインストールする（サーバー4台）

jdkをインストールするにはyumを使用することをお勧めしますが、自分でダウンロードしてインストールすることもできます。

 yum -y インストール java-1.7.0-openjdk*

環境変数を設定し、設定ファイルvim /etc/profileを変更します。

 JAVA_HOME=/usr/lib/jvm/jre-1.7.0-openjdk.x86_64 をエクスポートします。  
 PATH=$JAVA_HOME/bin:$PATH をエクスポートします 
エクスポート CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

すぐに有効にするにはソースコマンドを使用してください

ソース /etc/profile

パスワード不要のログイン

1. まず、4台のサーバーのファイアウォールとSELINUXをオフにします

ファイアウォールの状態を確認する

サービス iptables ステータス

ファイアウォールをオフにする

サービスiptables停止 
 chkconfig iptablesオフ

SELINUXを無効にした後、サーバーを再起動する必要があります。

 -- SELINUXを無効にする   
 # vim /etc/selinux/config  
 -- コメントアウト   
 #SELINUX=強制 
 #SELINUXTYPE=対象 
 -  に追加   
 SELINUX=無効

2. パスワードなしでマシンにログインする

以下では、ローカル hadoop-master のパスワードなしログインの構成を例に説明します。ユーザーは、ローカルの 3 つの子ノードマシン h-salve1 ～ 3 へのパスワードなしのログインを完了するには、以下の手順に従う必要があります。

1) 生産キー

ssh-keygen -t rsa

2) 公開鍵を「authorized_keys」ファイルに追加します。

 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

3) 権限を付与する

chmod 600 .ssh/承認済みキー

4) パスワードなしでマシンにアクセスできることを確認する

ssh hadoopマスター

***、h-salve1～3のパスワードフリーアクセスを順番に設定します

2. ローカルマシン上の hadoop-slave1、hadoop-slave2、hadoop-slave3 にパスワードなしでログインします。例として、hadoop-master がパスワードなしで hadoop-slave1 にログインする場合を考えます。

1) hadoop-slave1 にログインし、hadoop-master サーバーの公開鍵「id_rsa.pub」を hadoop-slave1 サーバーの「root」ディレクトリにコピーします。

 scp root@hadoop-master:/root/.ssh/id_rsa.pub /root/

2) hadoop-masterの公開鍵（id_rsa.pub）をhadoop-slave1のauthorized_keysに追加します。

 cat id_rsa.pub >> .ssh/authorized_keys  
 rm -rf id_rsa.pub

3) hadoop-masterでテストする

ssh hadoop-スレーブ1

3. hadoop-slave1～hadoop-slave3を設定して、パスワードなしでhadoop-masterにログインできるようにします。

次の例では、hadoop-slave1 を使用して、パスワードなしで hadoop-master にログインします。ユーザーは、次の手順を参照して、hadoop-slave2～hadoop-slave3 を完了し、パスワードなしで hadoop-master にログインする必要があります。

1) hadoop-master にログインし、hadoop-slave1 サーバーの公開鍵「id_rsa.pub」を hadoop-master サーバーの「/root/」ディレクトリにコピーします。

 scp root@hadoop-slave1:/root/.ssh/id_rsa.pub /root/

2) hadoop-slave1 の公開鍵 (id_rsa.pub) を hadoop-master の authorized_keys に追加します。

 cat id_rsa.pub >> .ssh/authorized_keys  
 rm -rf id_rsa.pub //id_rsa.pub を削除

3) hadoop-slave1でテストする

ssh hadoop マスター

hadoop-slave2とhadoop-slave3を順番に設定する

この時点で、マスターとスレーブのパスワードなしのログインが完了しました。

Hadoop環境構築

hadoop-masterのhadoop環境を設定する

1. インストールパッケージを解凍し、hadoop-masterに基本ディレクトリを作成します。

 ＃ダウンロード 
 http://apache.claz.org/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz を取得します。  
 #解凍 
 tar -xzvf hadoop-2.7.3.tar.gz -C /usr/ローカル   
 #名前の変更 
 mv hadoop-2.7.3 hadoop

2. hadoop-masterのhadoop環境変数を設定する

1) 環境変数を設定し、設定ファイルvi /etc/profileを変更します。

 HADOOP_HOME=/usr/ローカル/hadoopをエクスポートします。  
 PATH=$PATH:$HADOOP_HOME/bin をエクスポートします。

現在のターミナルでhadoopコマンドをすぐに有効にする

ソース /etc/profile

以下のように設定してください。すべてのファイルは /usr/local/hadoop/etc/hadoop パスにあります。

2. core-site.xmlを構成する

Hadoop コア構成ファイル /usr/local/hadoop/etc/hadoop/core-site.xml を変更し、fs.default.name を通じて NameNode の IP アドレスとポート番号を指定し、hadoop.tmp.dir を通じて Hadoop データストレージの一時フォルダーを指定します。

 <構成>  
    <プロパティ>  
        <名前>hadoop.tmp.dir</名前>  
        <値>ファイル:/usr/ローカル/hadoop/tmp</値>  
        <description>他の一時ディレクトリのベース。</description>  
    </プロパティ>  
    <プロパティ>  
        <名前>fs.defaultFS</名前>  
        <値>hdfs://hadoop-master:9000</値>  
    </プロパティ>  
 </構成>

特記事項: hadoop.tmp.dir パラメータが設定されていない場合、システムのデフォルトの一時ディレクトリは /tmp/hadoo-hadoop になります。このディレクトリは再起動のたびに削除されるため、フォーマットを再実行する必要があります。そうしないとエラーが発生します。

3. hdfs-site.xml を設定します。

HDFS コア構成ファイル /usr/local/hadoop/etc/hadoop/hdfs-site.xml を変更し、dfs.replication で HDFS バックアップ係数を 3 に指定し、dfs.name.dir でネームノードノードのファイルストレージディレクトリを指定し、dfs.data.dir でデータノードノードのファイルストレージディレクトリを指定します。

 <構成>  
    <プロパティ>  
        <名前>dfs.replication</名前>  
        <値>3</値>  
    </プロパティ>  
    <プロパティ>  
        <名前>dfs。名前.dir</名前>  
        <値>/usr/ローカル/hadoop/hdfs/名</値>  
    </プロパティ>  
    <プロパティ>  
        <名前>dfs.data.dir</名前>  
        <値>/usr/ローカル/hadoop/hdfs/data</値>  
    </プロパティ>  
 </構成>

4. mapred-site.xml を構成する

mapred-site.xml.templateをmapred-site.xmlにコピーして修正する

cp /usr/ローカル/hadoop/etc/hadoop/mapred-site.xml.template /usr/ローカル/hadoop/etc/hadoop/mapred-site.xml  
 vim /usr/ローカル/hadoop/etc/hadoop/mapred-site.xml  
 <構成>  
  <プロパティ>  
      <名前>mapreduce.framework。名前</名前>  
      <value>糸</value>  
  </プロパティ>  
   <プロパティ>  
      <名前>mapred.job.tracker</名前>  
      <値>http://hadoop-master:9001</値>  
  </プロパティ>  
 </構成>

5. yarn-site.xml を設定する

<構成>  
 <! -- サイト固有の YARN 構成プロパティ -->    
    <プロパティ>  
        <名前>yarn.nodemanager.aux-services</名前>  
        <値>mapreduce_shuffle</値>  
    </プロパティ>  
    <プロパティ>  
        <名前>yarn.resourcemanager.hostname</名前>  
        <値>hadoop マスター</値>  
    </プロパティ>  
 </構成>

6. マスターファイルを構成する

namenode ノードが配置されているサーバーマシンを指定する /usr/local/hadoop/etc/hadoop/masters ファイルを変更します。 localhost を削除し、namenode ノードのホスト名 hadoop-master を追加します。 IP アドレスは変更される可能性がありますが、ホスト名は通常変更されないため、IP アドレスの使用はお勧めしません。

 vi /usr/ローカル/hadoop/etc/hadoop/masters  
 ＃＃ コンテンツ 
 hadoopマスター

7. スレーブファイルを構成する（マスターホスト固有）

どのサーバーノードがデータノードノードであるかを指定する /usr/local/hadoop/etc/hadoop/slaves ファイルを変更します。 locahost を削除し、以下に示すようにすべてのデータノードのホスト名を追加します。

 vi /usr/ローカル/hadoop/etc/hadoop/slaves  
 ＃＃ コンテンツ 
 hadoop スレーブ1  
 hadoop スレーブ2  
 hadoop スレーブ3

hadoop-slaveのhadoop環境を設定する

以下では、hadoop-slave1 上の hadoop の構成を例として説明します。他の hadoop-slave2 ～ 3 サーバーの構成を完了するには、次の手順を参照する必要があります。

1) hadoopをhadoop-slave1ノードにコピーする

scp -r /usr/ローカル/hadoop hadoop-slave1:/usr/ローカル/

hadoop-slave1サーバーにログインし、スレーブのコンテンツを削除します。

 rm -rf /usr/ローカル/hadoop/etc/hadoop/slaves

2) 環境変数を設定する

vi /etc/プロファイル 
 ＃＃ コンテンツ 
 HADOOP_HOME=/usr/ローカル/hadoopをエクスポートします。  
 PATH=$PATH:$HADOOP_HOME/bin をエクスポートします。

現在のターミナルで hadoop コマンドを直ちに有効にします。

ソース /etc/profile

他のスレーブサービスを順番に設定する

クラスターを起動する

1. HDFSファイルシステムをフォーマットする

マスターの~/hadoopディレクトリに入り、次の操作を実行します。

 bin/hadoop ネームノード -format

ネームノードのフォーマットは、サービスを初めて起動する前に実行される操作であり、後で実行する必要はありません。

2. 次に、hadoop を起動します。

 sbin /スタート-all.sh

3. jpsコマンドを使用して実行ステータスを表示します。

 #master jpsを実行して実行ステータスを確認します 
 25928 セカンダリネームノード 
 25742 ネームノード 
 26387 日本語 
 26078 リソースマネージャー 
 #スレーブはjpsを実行して実行ステータスを確認します 
 24002 ノードマネージャー 
 23899 データノード 
 24179 日本

4. Hadoop クラスターのステータスを表示するコマンド

単純な jps コマンドを使用して、HDFS ファイル管理システムと MapReduce サービスが正常に起動されているかどうかを確認できますが、Hadoop クラスター全体の実行状態を確認することはできません。 hadoop dfsadmin -report を通じて表示できます。このコマンドを使用すると、障害が発生したノード、HDFS の容量と使用量、各ノードのハードディスクの使用状況をすばやく見つけることができます。

 hadoop dfsadmin -レポート

出力：

構成容量: 50108030976 (46.67 GB)  
現在の容量: 41877471232 (39.00 GB)  
 DFS 残り: 41877385216 (39.00 GB)  
使用された DFS: 86016 (84 KB)  
 DFS 使用率: 0.00%  
複製されたブロックの下: 0  
破損したレプリカを持つブロック: 0  
不足しているブロック: 0  
欠落ブロック（レプリケーション係数 1の場合）: 0 
  ......

5. Hadoopの再起動

sbin / stop-all.sh  
 sbin /スタート-all.sh

間違い

ビルドが完了して開始すると、次の 2 つのエラーが発生しました。

1. xxx: エラー: JAVA_HOMEが設定されておらず、見つかりません

このエラーは、jdk 環境変数が見つからず、hadoop-env.sh で設定する必要があることを意味します。

 vi /usr/ local /hadoop/etc/hadoop/hadoop-env.sh  
 ## 構成項目 
 JAVA_HOME=/usr/lib/jvm/jre-1.7.0-openjdk.x86_64 をエクスポートします。

2. ホスト「0.0.0.0 (0.0.0.0)」の信頼性を確立できません。

解決策: SELINUXを無効にする

-- SELINUXを無効にする   
 # vim /etc/selinux/config  
 -- コメントアウト   
 #SELINUX=強制 
 #SELINUXTYPE=対象 
 - に追加 
 SELINUX=無効

<<: サーバーレスアーキテクチャ変革の実践: 遺伝子サンプルの比較

>>: ビッグデータにハイブリッドクラウドアプローチを採用する中小企業向けの3つのベストプラクティス

Webmaster.com からの毎日のレポート: 出会い系サイトと結婚サイトが、JD.com の粗利益ゼロに対する Yixun の対応をめぐって争う

Hadoop分散クラスタを構築し、ビッグデータに取り組む方法を教えます

Webmaster.com からの毎日のレポート: 出会い系サイトと結婚サイトが、JD.com の粗利益ゼロに対する Yixun の対応をめぐって争う

SEO の重要性を上司に伝える方法

Baiduの愚かなことについて話そう

PieLayer - $14/年/256MB メモリ/10GB ハードディスク/250GB トラフィック/3 コンピュータルーム

くそったれ28のルール

ウクライナサーバー: vsys は、著作権フリーで苦情に強いサーバーを月額 58 ドルから提供しており、e3-1231/16g メモリ/1T ハードドライブ/10Gbps 帯域幅、無制限のトラフィックを備えています。

A5トピック: Pacific Direct Purchaseは大金を稼いでおり、多くのウェブサイトはねずみ講の疑いがある

友人の輪の中でのWeChatビジネスの徐々に衰退についての簡単な議論

Vps.Net - 50% オフ (最大割引)

SUSE: マルチモードITインフラの実現に貢献

推薦する

レポート予測: 医療クラウドインフラ市場規模は2028年に1,420億ドルに達する

VMware は、新しいアプリケーションをサポートするためにハイブリッドクラウドアーキテクチャを再構築する Project Monterey を開始

クラウドコンピューティング業界 2017 年末総括

競争の激しい医療業界で生き残る方法

ウェブサイト分析ツールの徹底解説：訪問元統計（パート2）

香港の金融ウェブサイト16件が中国本土のハッカーに脅迫され、容疑者6人が逮捕された

Baidu ウェブサイト再設計ツールの高度なルール URL 置換ルールの詳細な説明

Baidu Green Radish Algorithm 2.0 の影響を受ける業界の内訳

インデックス700 Baiduには600万以上の単一記事のインデックスがあります。なぜ1位にランクできるのでしょうか?

企業はWeiboマーケティングの過程でどのような問題に遭遇するのでしょうか?

aliendata: 月額 2.5 ドル、KVM 仮想 VPS、1G メモリ/1 コア (ryzen 3900X)/20g SSD/1Gbps 無制限トラフィック

ComScore: Pinterest の訪問者数は 5 月に前年比 4,377% 増加

mivocloud - 高セキュリティ無制限トラフィック VPS/5 ユーロ/2g メモリ/40g SSD/openstack

raidlogic - 9.9 ドル/年/64MB メモリ/128MB バースト/5GB ハードディスク/500GB トラフィック

これらの4つの要素により、ウェブサイト運営はユーザーエクスペリエンスが適格であることを保証できます。