您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 商业大数据分析许鑫大数据[2]大数据处理架构Hadoop
《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn许鑫华东师范大学经济与管理学部E-mail:xxu@infor.ecnu.edu.cn《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn提纲•2.1概述•2.2Hadoop项目结构•2.3Hadoop的安装与使用•2.4Hadoop集群的部署与使用《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.1概述•2.1.1Hadoop简介•2.1.2Hadoop发展简史•2.1.3Hadoop的特性•2.1.4Hadoop的应用现状《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.1.1Hadoop简介•Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构•Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中•Hadoop的核心是分布式文件系统HDFS(HadoopDistributedFileSystem)和MapReduce•Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力•几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.1.2Hadoop发展简史•Hadoop最初是由ApacheLucene项目的创始人DougCutting开发的文本搜索库。Hadoop源自始于2002年的ApacheNutch项目——一个开源的网络搜索引擎并且也是Lucene项目的一部分•在2004年,Nutch项目也模仿GFS开发了自己的分布式文件系统NDFS(NutchDistributedFileSystem),也就是HDFS的前身•2004年,谷歌公司又发表了另一篇具有深远影响的论文,阐述了MapReduce分布式编程思想•2005年,Nutch开源实现了谷歌的MapReduceHadoop的标志《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.1.2Hadoop发展简史•到了2006年2月,Nutch中的NDFS和MapReduce开始独立出来,成为Lucene项目的一个子项目,称为Hadoop,同时,DougCutting加盟雅虎•2008年1月,Hadoop正式成为Apache顶级项目,Hadoop也逐渐开始被雅虎之外的其他公司使用•2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统,它采用一个由910个节点构成的集群进行运算,排序时间只用了209秒•在2009年5月,Hadoop更是把1TB数据排序时间缩短到62秒。Hadoop从此名声大震,迅速发展成为大数据时代最具影响力的开源分布式开发平台,并成为事实上的大数据处理标准《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.1.3Hadoop的特性Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:•高可靠性•高效性•高可扩展性•高容错性•成本低•运行在Linux平台上•支持多种编程语言《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.1.3Hadoop的应用现状•Hadoop凭借其突出的优势,已经在各个领域得到了广泛的应用,而互联网领域是其应用的主阵地•2007年,雅虎在Sunnyvale总部建立了M45——一个包含了4000个处理器和1.5PB容量的Hadoop集群系统•Facebook作为全球知名的社交网站,Hadoop是非常理想的选择,Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面•国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等,其中,淘宝的Hadoop集群比较大《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.1.3Hadoop的应用现状Hadoop在企业中的应用架构《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.1.4ApacheHadoop版本演变•ApacheHadoop版本分为两代,我们将第一代Hadoop称为Hadoop1.0,第二代Hadoop称为Hadoop2.0•第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则增加了NameNodeHA等新的重大特性•第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop1.0,是一套全新的架构,均包含HDFSFederation和YARN两个系统,相比于0.23.x,2.x增加了NameNodeHA和Wire-compatibility两个重大特性《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.1.4ApacheHadoop版本演变《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn•ApacheHadoop•Hortonworks•Cloudera(CDH:ClouderaDistributionHadoop)•MapR•……2.1.5Hadoop各种版本选择Hadoop版本的考虑因素:•是否开源(即是否免费)•是否有稳定版•是否经实践检验•是否有强大的社区支持《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.1.5Hadoop各种版本《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.2Hadoop项目结构Hadoop的项目结构不断丰富发展,已经形成一个丰富的Hadoop生态系统《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.2Hadoop项目结构组件功能HDFS分布式文件系统MapReduce分布式并行编程模型YARN资源管理和调度器Tez运行在YARN之上的下一代Hadoop查询处理框架HiveHadoop上的数据仓库HBaseHadoop上的非关系型的分布式数据库Pig一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言PigLatinSqoop用于在Hadoop与传统数据库之间进行数据传递OozieHadoop上的工作流管理系统Zookeeper提供分布式协调一致性服务Storm流计算框架Flume一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统AmbariHadoop快速部署工具,支持ApacheHadoop集群的供应、管理和监控Kafka一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据Spark类似于HadoopMapReduce的通用并行框架《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.3Hadoop的安装与使用详细安装教程请参考:《大数据技术原理与应用第二章大数据处理架构Hadoop学习指南》访问地址:•2.3.1Hadoop安装之前的预备知识•2.3.2安装Linux虚拟机•2.3.3安装双操作系统•2.3.4详解Hadoop的安装与使用《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.3.1Hadoop安装之前的预备知识(一)Linux的选择(1)选择哪个Linux发行版?•在Linux系统各个发行版中,CentOS系统和Ubuntu系统在服务端和桌面端使用占比最高,网络上资料最是齐全,所以建议使用CentOS或Ubuntu•在学习Hadoop方面,虽然两个系统没有多大区别,但是推荐使用Ubuntu操作系统(2)选择32位还是64位?•如果电脑比较老或者内存小于2G,那么建议选择32位系统版本的Linux•如果内存大于4G,那么建议选择64位系统版本的Linux《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.3.1Hadoop安装之前的预备知识(二)系统安装方式:选择虚拟机安装还是双系统安装•建议电脑比较新或者配置内存4G以上的电脑可以选择虚拟机安装•电脑较旧或配置内存小于等于4G的电脑强烈建议选择双系统安装,否则,在配置较低的计算机上运行LInux虚拟机,系统运行速度会非常慢•鉴于目前教师和学生的计算机硬件配置一般不高,建议在实践教学中采用双系统安装,确保系统运行速度《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn《大数据》华东师范大学信息管理系许鑫xxu@infor.ecnu.edu.cn2.3.1Hadoop安装之前的预备知识(三)关于Linux的一些基础知识•Shell•是指“提供使用者使用界面”的软件(命令解析器),类似于DOS下的command和后来的cmd.exe。它接收用户命令,然后调用相应的应用程序•sudo命令•sudo是ubuntu中一种权限管理机制,管理员可以授权给一些普通用户去执行一些需要root权限执行的操作。当使用sudo命令时,就需要输入您当前用户的密码•输入密码•在Linux的终端中输入密码,终端是不会显示任何你当前输入的密码,也不会提示你已经输入了多少字符密码,读者不要误以为键盘没有响应•输入法中英文切换•linux中英文的切换方式是使用键盘“shift”键来切换,也可以点击顶部菜单的输入法按钮进行切换。Ubuntu自带的Sunpinyin中文输入法已经足够读者使用•Ubuntu终端复制粘贴快捷键•在Ubun
本文标题:商业大数据分析许鑫大数据[2]大数据处理架构Hadoop
链接地址:https://www.777doc.com/doc-24979 .html