Hadoop云计算平台搭建最详细过程(共22页)

Hadoop云计算平台及相关组件搭建安装过程详细教程——Hbase+Pig+Hive+Zookeeper+Ganglia+Chukwa+Eclipse等一．安装环境简介根据官网，Hadoop已在linux主机组成的集群系统上得到验证，而windows平台是作为开发平台支持的，由于分布式操作尚未在windows平台上充分测试，所以还不作为一个生产平台。Windows下还需要安装Cygwin，Cygwin是在windows平台上运行的UNIX模拟环境，提供上述软件之外的shell支持。实际条件下在windows系统下进行Hadoop伪分布式安装时，出现了许多未知问题。在linux系统下安装，以伪分布式进行测试，然后再进行完全分布式的实验环境部署。Hadoop完全分布模式的网络拓补图如图六所示：（1）网络拓补图如六所示：图六完全分布式网络拓补图（2）硬件要求：搭建完全分布式环境需要若干计算机集群，Master和Slaves处理器、内存、硬盘等参数要求根据情况而定。（3）软件要求操作系统64位Ubuntu12.04.4JDK版本:jdk-7u51-linux-x64.tar.gzNO.ProjectVersionContent1HardwareenvironmentCPU:Intel2.00GHzDisk:150GBMemory:2.00GBMaster/NameNodeIP:192.168.100.90Slave1/DataNodeIP:192.168.100.105Slave2/DataNodeIP:192.168.100.1062OperationsystemUbuntu-12.0464-bit3JDKjdk-7u51-linux-x64.tar.gz/usr/bin/jvm/jdk1.7.0_514Hadoophadoop-1.2.1.tar.gz/home/majiangbo/hadoop-1.2.15Zookeeperzookeeper-3.4.6.tar.gz/home/majiangbo/hadoop-1.2.1/zookeeper-3.4.66HBaseHbase-0.94.20.tar.gz/home/majiangbo/hadoop-1.2.1/hbase-0.94.207Pigpig-0.12.0.tat.gz/home/majiangbo/hadoop-1.2.1/pig-0.12.08Hivehive-0.12.0.tar.gz/home/majiangbo/hadoop-1.2.1/hive-0.12.09Ganglia/home/majiangbo/hadoop-1.2.1/10EclipseEclipsestandard4.3.2/home/majiangbo/eclipse11HadoopforeclipsepluginHadoop-eclipse-plugin-1.2.1.jar/home/majiangbo/eclipse/plugins12Chukwa（可选）并且所有机器均需配置SSH免密码登录。二．Hadoop集群安装部署目前，这里只搭建了一个由三台机器组成的小集群，在一个hadoop集群中有以下角色：Master和Slave、JobTracker和TaskTracker、NameNode和DataNode。下面为这三台机器分配IP地址以及相应的角色：192.168.100.90——master，namenode，jobtracker——master（主机名）192.168.100.105——slave，datanode，tasktracker——slave1（主机名）192.168.100.106——slave，datanode，tasktracker——slave2（主机名）实验环境搭建平台如图七所示：图七hadoop集群实验平台并且，Hadoop要求集群上每台的用户账户名和密码相同。具体安装步骤如下：1.下载和安装JDK,版本为jdk-7u51-linux-x64.tar.gz（1）JDK的安装目录为/usr/lib/jvm，创建此文件夹，在终端输入命令：mkdir/usr/lib/jvm（2）权限不够的话重新改下用户密码就可以了，命令:sudopasswd,之后重新输入密码。（3）移动jdk到/usr/lib/jvm，并解压,然后为了节省空间删除安装包。命令:mvjdk--7u51-linux-x64.tar.gz/usr/lib/jvmtar–zxvfjdk--7u51-linux-x64.tar.gzrm–rfjdk--7u51-linux-x64.tar.gz2.配置环境变量在终端输入命令：sudogedit/etc/profile打开profile文件，在文件最下面输入如下内容，如图八所示：图八JAVA环境变量设置即为：#setjavaenvironmentexportJAVA_HOME=/usr/lib/jvm/jdk1.7.0_51exportCLASSPATH=”.:$JAVA_HOME/lib:$CLASSPATH”exportPATH=”$JAVA_HOME/:$PATH”这一步的意义是配置环境变量，使系统可以找到jdk。3.验证JDK是否安装成功（1）输入命令：java–version，如图九所示。如果出现java版本信息，说明当前安装的jdk并未设置成ubuntu系统默认的jdk，接下来还需要手动将安装的jdk设置成系统默认的jdk。图九java版本信息（2）手动设置需输入以下命令：sudoupdate-alternatives–install/usr/bin/javajava/usr/lib/jvm/jdk1.7.0-51/bin/java300sudoupdate-alternatives–install/usr/bin/javacjavac/usr/lib/jvm/jdk1.7.0_51/javac300sudoupdate-alternatives–configjava然后输入java–version就可以看到所安装的jdk的版本信息。4.三台主机上分别设置/etc/hosts和/etc/hostnameHosts这个文件用于定义主机名和IP地址之间的对应关系，而hostname这个文件用于定义你的Ubuntu的主机名。（1）修改/etc/hosts,命令sudogedit/etc/hosts127.0.0.1localhost192.168.100.90master192.168.100.105slave1192.168.100.106slave2（2）修改/etc/hostname，命令sudogedit/etc/hostname(修改完重启有效)master以及slave1，slave25.在这两台主机上安装OpenSSH,并配置SSH可以免密码登录（1）确认已经连接上网，输入命令：sudoapt-getinstallssh（2）配置为可以免密码登录本机，接下来输入命令：ssh-keygen–tdsa–P‘’–f~/.ssh/id_dsa解释一下，ssh-keygen代表生成密匙，-t表示指定生成的密匙类型，dsa是密匙认证的意思，即密匙类型，-P用于提供密语，-f指定生成的密匙文件。这个命令会在.ssh文件夹下创建id_dsa以及id_dsa.pub两个文件，这是ssh一对私匙和公匙，把id_dsa.pub追加到授权的key中。输入命令：cat~/.ssh/id_dsa.pub~/.ssh/authorized_keys（3）验证ssh是否已经安装成功，输入命令：ssh–version。将文件复制到slave主机相同的文件夹内，输入命令：scpauthorized_keysslave1:~/.ssh/scpauthorized_keysslave2:~/.ssh/（4）看是否可以从master主机免密码登录slave，输入命令：sshslave1sshslave26.配置两台主机的Hadoop文件首先到Hadoop的官网下载hadoop-1.2.1.tar.gz包，默认讲Hadoop解压到/home/u（你的Ubuntu用户名）/目录下（1）进入hadoop内的conf文件夹，找到hadoop-env.sh，修改：exportJAVA_HOME=/usr/lib/jvm/jdk1.7.0_51，指定JDK的安装位置，如图十所示：图十JAVA_HOME路径设置（2）修改core-site.xml，这是Hadoop的核心配置文件，这里配置的是HDFS的地址及端号:configurationpropertynamefs.default.name/namevaluehdfs://master:9000/value/propertypropertynamehadoop.tmp.dir/namevalue/tmp/value/configuration（3）修改hdfs-site.xmlconfigurationpropertynamedfs.replication/namevalue2/value/property/configuration（4）修改mapred-site.xmlconfigurationpropertynamemapred.job.tracker/namevaluemaster:9001/value/property/configuration（5）修改conf/mastersmaster（6）修改conf/slavesslave1slave27.启动hadoop在启动之前，需要格式化hadoop的文件系统HDFS，进入hadoop文件夹，输入命令格式化：bin/hadoopnamenode–format，如图十一所示：图十一hadoop格式化输入命令，启动所有进程：bin/start-all.sh，如图十二所示：图十二hadoop启动信息查看是否所有进程启动，输入命令：jps，如图十三所示：图十三jps查看进程8.最后验证hadoop是否成功启动打开浏览器，查看机器集群状态分别输入网址：（1）输入，如图十四，可看到：图十四namenode状态点击livenodes，可以看到当前slave1和slave2两个节点信息，如图十五：图十五datanode节点状态（2）输入，如图十六，可看到：图十六jobtracker状态点击2nodes查看tasktracker信息,如图十七：图十七tasktracker状态（3）输入，如图十八，可看到：图十八task状态也可以通过命令：hadoopdfsadmin–report查看9.停止hadoop进程：bin/stop-all.sh如图十九：图十九停止hadoop集群10.以上为hadoop完全分布式集群配置以上过程为由三台计算机组成的完全分布式Hadoop集群，主要参考《Hadoop实战-第二版》和《Hadoop权威指南》，主要讲解了Hadoop的安装和配置过程，关于更多Hadoop原理的知识不在详述，如果在家在安装的时候遇到问题，或者按以上步骤安装完成却不能运行Hadoop，建议查看Hadoop的日志信息，Hadoop记录了详尽的日志信息，日志文件保存的Hadoop/logs文件夹内。三．其他组件安装过程简介本Hadoop平台搭建过程中安装的组件及软件环境主要包括以下内容：NO.ProjectVersionContent1HardwareenvironmentCPU:Intel2.00GHzDisk:150GBMemory:2.00GBMaster/NameNodeIP:192.168.100.90Slave1/DataNodeIP:192.168.

Hadoop云计算平台搭建最详细过程(共22页)

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

全套房地产开发企业行政办公制度及职员岗位任职要求

C1 小汽车驾驶要点 06152011

第5章饮用水消毒技术及其消毒副产物

餐饮服务类新店开业培训计划（PPT66页)

(XXXX0202)福特的ABC成本分析资料-36PP

材料调查报告

国际物流学课程讲义

微机原理2-1：8088CPU内部结构、寄存器组、存储器组织

中国（浙江）的水环境问题及对策

软考-网络工程师-常用计算机英语词汇表

相关文档

相关搜索