您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > hadoop开发教程-hadoop开发入门视频05.Hadoop工作原理、调度策略
CDH4.1实战系列讲师:Cloudy(北风网版权所有)5、Hadoop工作原理、调度策略Impala下载地址上节课最后提示没impala的repo文件,做法为:每台节点/etc/yum.repos.d下创建cloudera-impala.repo,内容为:[cloudera-impala]name=Impalabaseurl===1最后每台节点都安装第4讲中顺序安装cdh4相关rpm包,大家课下进行。操作上,下接第7讲Hadoop工作原理Master/slave模式核心模块:1、HDFS分布式存储进程:Namenode,Datanode以管理者-工作者模式运行,ssh协议(ftp+telnet)进行数据传输。Namenode管理文件系统的命名空间,维护文件系统树及所有文件和目录,这些信息保存在本地磁盘上。Namenode还记录着每个文件中各个block所在的数据节点信息。Datanode是文件系统的工作节点,存储Block,并定期向namenode发送它们存储的block列表。客户端,访问整个文件系统,hadoopfs开头类Linuxshell命令。2、MapReduce计算模块进程:Jobtracker,TasktrackerJobtracker:协调作业的运行,接收和分配作业,可以比喻为负责收发作业的老师Tasktracker:运行Job,创建task任务,可以比喻为写作业的学生。客户端通过master节点向JobTracker(可以部署在任意节点上,namenode所在节点就是master)提交Job,JobTracker接到JobClient的请求后把其加入作业队列中。JobTracker一直在等待JobClient通过RPC向其提交作业,而TaskTracker一直通过RPC向JobTracker发送心跳信号询问有没有任务可做。如果JobTracker的作业队列不为空,则TaskTracker发送的心跳将会获得JobTracker给它派发的任务,当TaskTracker接到任务后,通过自身调度在本slave建立Task执行。MapReduce内部工作原理:Map-shuffle–reduce过程,见网摘:调度策略Hadoop本身也是一个调度系统,接收客户端提交的job进行调度。Hadoop的MapReduce调度是由tasktracker主动向jobtracker请求的,其原理类似于普通的非抢占式操作系统调度,即任务一旦分配,就不可中断。根据调研,已有典型调度算法如下:1、先进先出算法(FIFO:FisrtInFirstOut):该算法按照进程进入就绪队列的先后顺序来选择。即每当进入进程调度,总是把就绪队列的队首进程投入运行。Hadoop自带的调度算法就是FIFO。2、公平份额调度算法FairScheduler公平共享调度器的核心概念是,随着时间推移平均分配工作,这样每个作业都能平均地共享到资源。结果是只需较少时间执行的作业能够访问CPU,那些需要更长时间执行的作业中结束得较迟。这样的方式可以在Hadoop作业之间形成交互,而且可以让Hadoop集群对提交的多种类型作业作出更大的响应。公平调度器是由Facebook开发。调度策略3、计算能力调度算法CapacityScheduler容量调度器的原理与公平调度器有些相似,但也有一些区别。首先,容量调度是用于大型集群,它们有多个独立用户和目标应用程序。由于这个原因,容量调度能提供更大的控制和能力,提供用户之间最小容量保证并在用户之间共享多余的容量。容量调度是由Yahoo开发。应用调度,大量应用如何控制调度?欢迎访问我们的官方网站
本文标题:hadoop开发教程-hadoop开发入门视频05.Hadoop工作原理、调度策略
链接地址:https://www.777doc.com/doc-7944958 .html