您好,欢迎访问三七文档
Hadoop系统安装运行与程序开发1.单机Hadoop系统安装基本步骤2.集群Hadoop系统安装基本步骤3.Hadoop集群远程作业提交与执行4.HadoopMapReduce程序开发Hadoop系统运行的软件环境Linux操作系统如RHELS6.0(RedHatEnterpriseLinuxServer6.0)直接安装LinuxWindow下安装Linux虚拟机SSH(SecureShell)主要用于远程管理Hadoop节点以及Hadoop节点间的安全共享访问Java如Java1.6.0Hadoop系统的安装方式单机方式在一台运行Linux或Windows下虚拟Linux的单机上安装运行Hadoop系统单机伪分布方式在一台运行Linux或Window下虚拟Linux的单机上,用伪分布方式,用不同的java进程模拟分布运行中的NameNode、DataNode、JobTracker、TaskTracker等各类节点集群分布模式在一个真实的集群环境下安装运行Hadoop系统,集群的每个节点可以运行Linux或Window下的虚拟Linux。单机和伪分布模式下编写调试完成的程序不需修改即可在真实的分布式Hadoop集群下运行基本安装步骤安装JDK下载安装Hadoop配置SSH配置Hadoop的环境格式化HDFS文件系统启动Hadoop环境运行程序测试查看集群状态单机和单机伪分布方式安装过程1.单机操作系统安装在单机上安装Linux或Window下虚拟Linux,假设安装后机器名为Siler。2.安装SSH如果安装RHELS6.0,确保软件安装时把SSH选上;如果安装Linux时没有安装SSH,则需要另行安装SSH3.安装Java下载和安装Java,将java安装在root/usr/java目录下单机和单机伪分布方式安装过程4.创建用户为Hadoop创建一个专门的用户组如hadoop-user,然后在该用户组下创建不同的用户。可在安装系统的时候创建,也可以在安装好之后用如下命令创建:[root@Siler~]#groupaddhadoop-user[root@Siler~]#useradd-ghadoop_user-d/home/hadoophadoop“hadoop”是所创建的用户名,-d指明“hadoop”用户的home目录是/home/hadoop)[root@Siler~]#passwdhadoop[给用户hadoop设置口令]单机和单机伪分布方式安装过程5.解压安装Hadoop到Hadoop官网下载hadoop-0.21.0.tar.gz建立安装目录[hadoop@Siler~]mkdir~/hadoop_installs把hadoop-0.21.0.tar.gz放在这里,然后解压:[hadoop@Silerhadoop_installs]$tar–zxvfhadoop-0.21.0.tar.gz单机和单机伪分布方式安装过程6.配置环境变量进入到“hadoop”用户下[root@Siler~]#su–hadoop[注意中间的”-”不要丢][hadoop@Siler~]$编辑~/.bash_profile文件(用vi或gedit)vi~/.bash_profile设置如下环境变量:PATH=$PATH:$HOME/binexportJAVA_HOME=/usr/java/java-1.6.0exportHADOOP_HOME=/home/hadoop/hadoop_installs/hadoop-0.21.0exportPATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/binexportCLASSPATH=$JAVA_HOME/lib:.单机和单机伪分布方式安装过程7.免密码SSH访问配置在伪分布模式下(集群分布模式更需要这个设置过程),为了实现免密码SSH登陆连接,需要进行相应的配置。方式是创建一个认证文件,然后用publickey实现免密码的登录连接。过程如下:执行命令产生认证文件[hadoop@Siler~]$ssh-keygen-trsa-P一直敲回车,然后将在/home/hadoop/.ssh目录下生成id_rsa认证文件将该文件复制到名为authorized_keys的文件[hadoop@Siler~]cat~/.ssh/id_rsa.pub~/.ssh/authorized_keys然后测试一下看看能不能登录:[hadoop@Siler~]sshlocalhost单机和单机伪分布方式安装过程什么是SSH?SSH(SecureShell),是建立在应用层和传输层基础上的安全协议。传统的网络服务程序,如FTP、POP和Telnet本质上都是不安全的;它们在网络上用明文传送数据、用户帐号和用户口令,很容易受到中间人(man-in-the-middle)攻击方式的攻击。而SSH是目前较为可靠的、专为远程登录会话和其他网络服务提供安全性的协议。利用SSH协议可以有效防止远程管理过程中的信息泄露问题。通过SSH可以对所有传输的数据进行加密,也能够防止DNS欺骗和IP欺骗。SSH另一项优点是其传输的数据是经过压缩的,所以可以加快传输的速度。SSH有很多功能,它既可以代替Telnet,又可以为FTP、POP、PPP提供一个安全的登陆会话“通道”。Hadoop使用SSH保证在远程管理Hadoop节点和节点间用户共享访问时的安全性。单机和单机伪分布方式安装过程8.修改hadoop配置文件Hadoop的配置文件存放在hadoop安装目录下的conf目录中,主要有以下几个配置文件要修改:conf/hadoop-env.sh:Hadoop环境变量设置conf/core-site.xml:主要完成NameNode的IP和端口设置conf/hdfs-site.xml:主要完成HDFS的数据块副本等参数设置conf/mapred-site.xml:主要完成JobTrackerIP和端口设置conf/masters:完成master节点IP设置conf/slaves:完成Slaves节点IP设置单机和单机伪分布方式安装过程9.格式化NameNode执行Hadoop的bin文件夹中的格式化命令:[hadoop@Siler~]$hadoopnamenode-format如果格式化成功,会返回一堆有关NameNode的启动信息,其中会有一句“….hasbeensuccessfullyformatted.”单机和单机伪分布方式安装过程10.启动HDFS和MapReduce执行以下命令启动HDFS和MapReduce[hadoop@Siler~]$start-all.sh用JPS命令检查一下是否正常启动:[hadoop@Siler~]$jps显示以下各进程信息则说明HDFS和MapReduce都已正常启动:4706JobTracker4582SecondaryNameNode4278NameNode4413DataNode4853TaskTracker4889Jps11.停止HDFS和MapReduce执行以下命令启动HDFS和MapReduce[hadoop@Siler~]$stop-all.sh单机和单机伪分布方式安装过程12.运行测试在Linux文件系统下(如/root/test)创建两个文本数据文件:file1.txt:hellohadoophelloworldfile2.txt:goodbyehadoop将文件复制到HDFS文件系统中:[hadoop@Siler~]$dfs–copyFromLocal/root/testtest-intest-in是在HDFS中建立的一个数据数据目录运行hadoop安装包中自带的WordCount程序进行测试:[hadoop@Siler~]$hadoopjarhadoop-0.21.0-examples.jarwordcounttest-intest-out其中test-out只能由程序创建,不能事先存在集群分布方式安装过程1.操作系统安装在每个节点上安装Linux或Window下虚拟Linux,假设安装后机器名为Master。2.安装SSH如果安装RHELS6.0,确保软件安装时把SSH选上;如果安装Linux时没有安装SSH,则需要另行安装SSH3.安装Java下载和安装Java,将java安装在root/usr/java目录下集群分布方式安装过程4.创建用户为Hadoop创建一个专门的用户组如hadoop-user,然后在该用户组下创建不同的用户。可在安装系统的时候创建,也可以在安装好之后用如下命令创建:[root@Master~]#groupaddhadoop-user[root@Master~]#useradd-ghadoop_user-d/home/hadoophadoop“hadoop”是所创建的用户名,-d指明“hadoop”用户的home目录是/home/hadoop)[root@Master~]#passwdhadoop[给用户hadoop设置口令]1).在真实集群分布模式下,要求每个节点使用相同的用户名,比如,可以使用“hadoop”作为所有节点上统一的用户名。2).并且要求在所有节点上安装的hadoop系统具有完全一致的目录结构。集群分布方式安装过程5.在主节点上解压安装Hadoop到Hadoop官网下载hadoop-0.21.0.tar.gz建立安装目录[hadoop@Master~]mkdir~/hadoop_installs把hadoop-0.21.0.tar.gz放在这里,然后解压:[hadoop@Masterhadoop_installs]$tar–zxvfhadoop-0.21.0.tar.gz注:这个过程仅需在主节点上完成,然后安装好的Hadoop系统将被复制到所有从节点集群分布方式安装过程6.配置环境变量(每个节点都必须做)进入到“hadoop”用户下[root@Siler~]#su–hadoop[注意中间的”-”不要丢][hadoop@Siler~]$编辑~/.bash_profile文件(用vi或gedit)vi~/.bash_profile设置如下环境变量:PATH=$PATH:$HOME/binexportJAVA_HOME=/usr/java/java-1.6.0exportHADOOP_HOME=/home/hadoop/hadoop_installs/hadoop-0.21.0exportPATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/binexportCLASSPATH=$JAVA_HOME/lib:.集群分布方式安装过程7.免密码SSH访问配置在真实集群分布模式下更需要这个设置过程,为了实现节点间相互的免密码SSH访问,需要进行相应的配置。方式是创建一个认证文件,然后用publickey实现免密码的登录连接。过程如下:执行命令产生认证文件[hadoop@Master~]$ssh-keygen-trsa-P敲回车,然后将在/home/hadoop/.ssh目录下生成id_rsa认证文件将该文件复制为名为authorized_keys的文件[hadoop@Master~]$cat~/.ssh/id_rsa.pub~/.ssh/authorized_keys将authorized_keys文件复制到所有节点上[hadoop@Master~]$scpauthorized_keys[从节点主机名或IP]:/home/hadoop/.ssh集群分布方式安装过程8.在主节点上修改hadoop配置文件Hadoop的配置文件存放在hadoop安装目录下的conf目录中,主要有以下几个配置文件要修改:conf/hadoop-env.sh:Hadoop环境变量设置conf/core-s
本文标题:hadoop安装.
链接地址:https://www.777doc.com/doc-2875740 .html