java大数据最全课程学习笔记(2)--Hadoop完全分布式运行模式

阅读量：415 次

发布时间：2019-03-06

本文共 7429 字，大约阅读时间需要 24 分钟。

目前,,同步发表中,更多精彩欢迎访问我的

Hadoop完全分布式运行模式

步骤分析:

准备3台客户机（关闭防火墙、静态ip、主机名称）
vim /etc/sysconfig/network
三台机器各自的配置分别为HOSTNAME=hadoop101;HOSTNAME=hadoop102;HOSTNAME=hadoop103
vim /etc/hosts
三台机器都加入下面的映射关系
```
192.168.1.101 hadoop101192.168.1.102 hadoop102192.168.1.103 hadoop103
```

安装JDK

配置环境变量

安装Hadoop

配置环境变量

配置集群

单点启动

配置ssh

群起并测试集群

由于在已经配置好环境并测试了hadoop伪分布式开发模式,所以在此不再赘述.

编写集群分发脚本xsync

scp(secure copy) 安全拷贝(全量复制)
1. scp定义
  
  scp可以实现服务器与服务器之间的数据拷贝.（from server1 to server2）
2. 基本语法
  
  scp -r 源文件用户名A@主机名1：path1 目标文件用户名B@主机名2：path2
3. 其他
  1. 如果从本机执行读取或写入，用户名B@主机名2：可以省略！
  2. 在主机1上，使用A用户读取path1的文件，再使用用户B登录到主机2，在主机2的path2路径执行写入！
  3. 要求：
    1. 用户名A@主机名1 对path1有读权限
    2. 用户名B@主机名2 对path2有写权限

rsync 远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

rsync -rvlt path1 目标文件用户名B@主机名2：path2

选项	功能
-r	递归
-v	显示复制过程
-l	拷贝符号连接
-t	基于文件的修改时间进行对比，只同步修改时间不同的文件

只能将本机的文件同步到其他机器！

注意:path1是个目录，目录以/结尾，只会同步目录中的内容，不会同步目录本身！目录不以/结尾，同步目录中的内容，也会同步目录本身！

编写xsync集群分发脚本
1. 需求:循环复制文件到所有节点的相同目录下,即将当前机器的文件，同步到集群所有机器的相同路径下！例如:hadoop102:/A/a , 执行脚本后，将此文件同步到集群中所有机器的 /A/a
2. 需求分析:
  1. 用户在使用xsync时，只需要传入要同步的文件即可
    xysnc a
    不管a是一个相对路径还是绝对路径，都需要将a转换为绝对路径！
  2. 文件的绝对路径：
    父路径： dirpath=$(cd dirname /home/atguigu/hi; pwd -P)
    文件名： filename=basename hi
    pwd -P为了避免软链接无法获取到真实的父路径
  3. 核心命令：
    for(())
    do
    rsync -rvlt path1
    done
  4. 说明：在/home/atguigu/bin这个目录下存放的脚本，atguigu用户可以在系统任何地方直接执行。
3. 脚本实现:
```
[atguigu@hadoop102 ~]$ mkdir bin[atguigu@hadoop102 ~]$ cd bin/[atguigu@hadoop102 bin]$ touch xsync[atguigu@hadoop102 bin]$ vi xsync
```
  - 在该文件中编写如下代码
```
#!/bin/bash#校验参数是否合法if(($#==0))then		echo 请输入要分发的文件!		exit;fi#拼接要分发文件的绝对路径dirpath=$(cd `dirname $1`; pwd -P)filename=`basename $1`echo 要分发的文件的路径是:$dirpath/$filename#循环执行rsync分发文件到集群的每台机器for((i=101;i<=103;i++))do		echo --------------hadoop$i-------------------		rsync -rvlt $dirpath/$filename atguigu@hadoop$i:$dirpathdone
```
  - 修改脚本 xsync 具有执行权限
```
[atguigu@hadoop102 bin]$ chmod 777 xsync
```
    或者
```
[atguigu@hadoop102 bin]$ chmod u+x xsync
```
  - 调用脚本形式：xsync 文件名称
4. 编写批量执行同一命令的脚本
```
#!/bin/bash#在集群的所有机器上批量执行同一条命令if(($#==0))then		echo 请输入您要操作的命令!		exit;fiecho 要执行的命令是$*#循环执行此命令for((i=101;i<=103;i++))do		echo --------------hadoop$i-------------------		ssh hadoop$i $*done
```

集群配置

集群部署规划

	hadoop101	hadoop102	hadoop103
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

配置集群

核心配置文件

配置core-site.xml

[atguigu@hadoop102 hadoop]$ vi core-site.xml

在该文件中编写如下配置


     
     	
      
       fs.defaultFS
           
      
       hdfs://hadoop101:9000
      
     
     
     	
      
       hadoop.tmp.dir
      	
      
       /opt/module/hadoop-2.7.2/data/tmp

HDFS配置文件

配置hadoop-env.sh
[atguigu@hadoop102 hadoop]$ vi hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置hdfs-site.xml
[atguigu@hadoop102 hadoop]$ vi hdfs-site.xml

在该文件中编写如下配置


       	  
        
         dfs.replication
        	  
        
         3
        
       
       
            
        
         dfs.namenode.secondary.http-address
             
        
         hadoop103:50090

YARN配置文件

配置yarn-env.sh
[atguigu@hadoop102 hadoop]$ vi yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置yarn-site.xml
[atguigu@hadoop102 hadoop]$ vi yarn-site.xml

在该文件中增加如下配置


       
       	  
        
         yarn.nodemanager.aux-services
        	  
        
         mapreduce_shuffle
        
       
       
       	  
        
         yarn.resourcemanager.hostname
        	  
        
         hadoop101

MapReduce配置文件
- 配置mapred-env.sh
  [atguigu@hadoop102 hadoop]$ vi mapred-env.sh
  
  export JAVA_HOME=/opt/module/jdk1.8.0_144
- 配置mapred-site.xml
  [atguigu@hadoop102 hadoop]$ vi mapred-site.xml
- 在该文件中增加如下配置
```
       
       	  
        
         mapreduce.framework.name
        	  
        
         yarn
        
       
```

在集群上分发配置好的Hadoop配置文件
[atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-2.7.2/

查看文件分发情况
xcall cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml

集群单点启动

如果集群是第一次启动，需要格式化NameNode
[atguigu@hadoop102 hadoop-2.7.2]$ hadoop namenode -format

在hadoop102上启动NameNode

[atguigu@hadoop102 hadoop-2.7.2]$ hadoop-daemon.sh start namenode[atguigu@hadoop102 hadoop-2.7.2]$ jps8118 NameNode

启动hadoop101,hadoop102,hadoop103上的DataNode

[atguigu@hadoop102 hadoop-2.7.2]$ xcall hadoop-daemon.sh start datanode[atguigu@hadoop101 hadoop]$ xcall jps要执行的命令是jps--------------hadoop101-------------------8118 NameNode13768 Jps8238 DataNode--------------hadoop102-------------------8072 DataNode12959 Jps--------------hadoop103-------------------7347 DataNode13950 Jps

SSH无密登陆配置

免密登录原理

生成公钥和私钥
[atguigu@hadoop102 .ssh]$ ssh-keygen -t rsa
然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

将公钥拷贝到要免密登录的目标机器上的/home/atguigu/.ssh目录下的authorized_keys中
以下命令可以直接完成上述操作
```
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop101[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop102[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103
```

.ssh文件夹下（~/.ssh）的文件功能解释

known_hosts	记录ssh访问过计算机的公钥(public key)
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放授权过得无密登录服务器公钥

登录状态的环境变量

Login Shell
是指登录时，需要提供用户名密码的shell，如：su – user1 , 图形登录， ctrl+alt+F2-6进入的登录界面。
- 这种Login shell 执行脚本的顺序：
  1. /etc/profile 【全局profile文件;它定义了LoginUser的 PATH, USER, LOGNAME(登录使用者帐号)】
  2. /etc/profile.d/目录下的脚本
  3. ～/.bash_profile 【搜索命令的路径 ——————- 登录级别环境变量配置文件】
  4. ～/.bashrc 【存储用户设定的别名和函数 ———- shell级别环境变量配置文件】
  5. /etc/bashrc 【全局bashrc文件; 它主要定义一些 Function 和 Alias；更改/etc/bashrc会影响到所有用户,由root用户管理。】

Non-Login shell
- 登录终端后，使用ssh 登录其他机器！
- 非登录shell指的是，不需要输入用户名密码的shell，如图形下右键terminal，或ctrl+shift+T打开的shell
- 这种Non-Login shell 执行登录脚本的顺序：
  1. ~/.bashrc
  2. /etc/bashrc
  3. /etc/profile.d/目录下的脚本

ssh 目标机器
登录之后，执行某个命令！
属于Login-shell，会自动读取 /etc/profile文件中定义的所有的变量！

ssh 目标机器命令
属于Non-Login-shell
不会读取/etc/profile
如果在使用命令时，我们需要使用/etc/profile定义的一些变量，需要在目标机器的对应的用户的家目录/.bashrc中添加以下代码
source /etc/profile
如果不添加以上代码，在执行start-all.sh | stop-all.sh一定会报错！

群起集群

群起脚本的原理是获取集群中所有的节点的主机名
默认读取当前机器 HADOOP_HOME/etc/hadoop/slaves，获取集群中所有的节点的主机名

循环执行 ssh 主机名 hadoop-daemon.sh start xxx
保证当前机器到其他节点，已经配置了ssh免密登录
保证集群中所有当前用户的家目录/.bashrc中，已经配置source /etc/profile

配置slaves
```
/opt/module/hadoop-2.7.2/etc/hadoop/slaves[atguigu@hadoop102 hadoop]$ vi slaves
```
在文件中增加如下内容:
```
hadoop101hadoop102hadoop103
```
注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

启动集群

如果集群是第一次启动，需要格式化NameNode
[atguigu@hadoop102 hadoop-2.7.2]$ hdfs namenode -format

启动HDFS

[atguigu@hadoop101 hadoop]$ start-dfs.sh[atguigu@hadoop101 hadoop]$ xcall jps要执行的命令是jps--------------hadoop101-------------------8118 NameNode13768 Jps8238 DataNode--------------hadoop102-------------------8072 DataNode12959 Jps--------------hadoop103-------------------7473 SecondaryNameNode7347 DataNode13950 Jps

启动YARN
[atguigu@hadoop103 hadoop-2.7.2]$ start-yarn.sh

web端查看SecondaryNameNode
1. 浏览器中输入：
2. 查看SecondaryNameNode信息

集群基本测试
1. hadoop fs -mkdir /wcinput
2. hadoop fs -put hi /wcinput/
3. hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /wcinput/ /wcoutput

集群启动/停止方式总结

各个服务组件逐一启动/停止
1. 分别启动/停止HDFS组件
  hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode
2. 启动/停止YARN
  yarn-daemon.sh start / stop resourcemanager / nodemanager