hadoop开发教程-hadoop开发入门视频05.Hadoop工作原理、调度策略

CDH4.1实战系列讲师：Cloudy（北风网版权所有)5、Hadoop工作原理、调度策略Impala下载地址上节课最后提示没impala的repo文件，做法为:每台节点/etc/yum.repos.d下创建cloudera-impala.repo,内容为:[cloudera-impala]name=Impalabaseurl===1最后每台节点都安装第4讲中顺序安装cdh4相关rpm包，大家课下进行。操作上，下接第7讲Hadoop工作原理Master/slave模式核心模块：1、HDFS分布式存储进程：Namenode,Datanode以管理者-工作者模式运行，ssh协议(ftp+telnet)进行数据传输。Namenode管理文件系统的命名空间，维护文件系统树及所有文件和目录，这些信息保存在本地磁盘上。Namenode还记录着每个文件中各个block所在的数据节点信息。Datanode是文件系统的工作节点，存储Block，并定期向namenode发送它们存储的block列表。客户端，访问整个文件系统，hadoopfs开头类Linuxshell命令。2、MapReduce计算模块进程：Jobtracker，TasktrackerJobtracker：协调作业的运行,接收和分配作业，可以比喻为负责收发作业的老师Tasktracker:运行Job，创建task任务，可以比喻为写作业的学生。客户端通过master节点向JobTracker（可以部署在任意节点上，namenode所在节点就是master）提交Job,JobTracker接到JobClient的请求后把其加入作业队列中。JobTracker一直在等待JobClient通过RPC向其提交作业,而TaskTracker一直通过RPC向JobTracker发送心跳信号询问有没有任务可做。如果JobTracker的作业队列不为空,则TaskTracker发送的心跳将会获得JobTracker给它派发的任务，当TaskTracker接到任务后，通过自身调度在本slave建立Task执行。MapReduce内部工作原理：Map-shuffle–reduce过程，见网摘：调度策略Hadoop本身也是一个调度系统，接收客户端提交的job进行调度。Hadoop的MapReduce调度是由tasktracker主动向jobtracker请求的，其原理类似于普通的非抢占式操作系统调度，即任务一旦分配，就不可中断。根据调研，已有典型调度算法如下：1、先进先出算法(FIFO:FisrtInFirstOut):该算法按照进程进入就绪队列的先后顺序来选择。即每当进入进程调度，总是把就绪队列的队首进程投入运行。Hadoop自带的调度算法就是FIFO。2、公平份额调度算法FairScheduler公平共享调度器的核心概念是，随着时间推移平均分配工作，这样每个作业都能平均地共享到资源。结果是只需较少时间执行的作业能够访问CPU，那些需要更长时间执行的作业中结束得较迟。这样的方式可以在Hadoop作业之间形成交互，而且可以让Hadoop集群对提交的多种类型作业作出更大的响应。公平调度器是由Facebook开发。调度策略3、计算能力调度算法CapacityScheduler容量调度器的原理与公平调度器有些相似，但也有一些区别。首先，容量调度是用于大型集群，它们有多个独立用户和目标应用程序。由于这个原因，容量调度能提供更大的控制和能力，提供用户之间最小容量保证并在用户之间共享多余的容量。容量调度是由Yahoo开发。应用调度，大量应用如何控制调度？欢迎访问我们的官方网站

hadoop开发教程-hadoop开发入门视频05.Hadoop工作原理、调度策略

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

XCTF_A_资产管理标准功能培训

求职电子书__基金行业

房地产市场的多方博弈和金融风险研究

电气安全培训知识

汽车机械设计

第八章建筑内部热水供应系统的计算

能源和基础设施

高中生物选修3《现代生物科技专题》教案全集

地质矿产实验室测试规范94版

14001条文讲解及稽核重点(1)

相关文档

相关搜索