大数据之hadoop分布式集群初次启动

1、大数据之hadoop分布式集群初次启动上篇文章中我们通过克隆已有虚拟机并修改相应的参数配置将hadoop分布式集群搭建完成，接下来我们启动Hadoop分布式集群。1、ssh免密登录首先打开虚拟机软件VMware然后开启master、slave1、slave2三个虚拟机。一般搭建hadoop分布式集群时需要配置集群中各个节点间的ssh免密登录，然后才可以启动hadoop分布式集群。我们在master虚拟机终端中输入命令sshslave1，此时出现如下提示，然后输入yes注意输入exit命令退出slave2的登录。接下来我们就可以远程登录到slave2了。在登录的过程中我们也无需输入密码。小伙伴们会不会有疑问，我们什么时候配置过ssh免密登录？其实我们还真的配置了，由于现在集群中的三个虚拟机最终的源头都是由伪分布集群的虚拟机复制过来的，在这过程中也把.ssh目录下的authorized_keys这个文件复制过来了。这个文件的作用之前提前过，简单来说就是认证登录ssh服务器的客户机，只要客户机的公钥在这里面就可以不用密码登录ssh服务器了。下图为slave1节点hduser用户主目录下的.。

2、ssh目录大家可以看到authorized_keys目录已经存在了。2、格式化HDFS由于我们集群中的虚拟机都是由伪分布集群虚拟机克隆出来的所以会有HDFS相关的目录，而且目录中还有数据，为了不影响格式化操作我们需要将这些目录中的数据都删除，然后再执行格式化。2.1删除master虚拟机HDFS目录数据输入命令rm-rftmp/dfs/删除dfs目录2.2删除slave1虚拟机HDFS目录数据首先通过sshslave1登录slave1然后执行rm-rftmp/dfs/删除slave1中的dfs目录。记得exit退出slave1的登录。2.3删除slave2虚拟机HDFS目录数据删除方式与删除slave1虚拟机HDFS目录的方式一致，这里不再赘述，具体操作可参照下图。一定记得最后执行exit退出slave2的登录，否则极易造成误操作。2.4格式化HDFS在删除各个节点HDFS文件后我们开始格式化HDFS。在master终端输入命令hadoopnamenode–format然后回车执行。执行完成后会看到下图标注的那句话，表明格式化成功。3、启动hadoop格式化HDFS结束之后我们就可以启。

3、动hadoop分布式集群了。启动可以可以分步执行当然hadoop也给我们提供了更简单的脚本通过一个命令自动启动所有模块。这里需要指出的是不管分步执行启动过程还是通过脚本自动启动，模块的启动顺序都是一致的即先启动HDFS模块然后再启动YARN模块，停止的过程则是先停止YARN模块再停HDFS模块。下面我们来分别操作演示一下。3.1启动HDFS进程启动HDFS模块使用命令start-dfs.sh，启动过程如下图所示。需要注意的是我们启动或者停止的命令都是只需在master节点终端中操作即可，底层hadoop会自动启动其他节点的相关进程。启动完成后可以通过jps命令查看启动了哪些进程，这在下图也有展示。我们可以看到HDFS模块在master上有NameNode与SecondaryNameNode进程。HDFS模块在slave1节点启动进程DataNodeHDFS模块在slave2节点启动进程也是DataNode。3.2启动YARN进程启动YARN模块的命令为start-yarn.sh，启动过程如下图所示master节点启动的进程如下图所示，比启动HDFS时多了ResourceManager进。

4、程。在slave1与slave2节点上多了NodeManager进程3.2全部启动（包括YARN、HDFS）hadoop还提供了一个可以自动启动HDFS与YARN的脚本命令start-all.sh和停止HDFS与YARN的命令stop-all.sh。在使用start-all.sh命令前我们需要先停止所有进程否则会报错。在终端输入命令stop-all.sh停止所有进程过程如下图所示。此时通过jps命令查看master所有hadoop相关进程已经关闭查看slave1slave2节点同样的是hadoop进程消失，说明命令执行成功。下面演示同时启动HDFS、YARN，命令行执行命令start-all.sh，并使用jps查看进程，如下面三张图所示，启动成功。小伙伴们今天的内容到这里就结束了，你Get到了没。。