您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > hadoop架构介绍
Hadoop架构介绍背景:云时代的变革应用的挑战•海量数据应用的挑战•成本应用的挑战•变化的业务需求分布式解决方案?变革•分布式编程已成为必备的技能•编程的对象:单机vs集群?•全新的系统栈–存储–调度–计算–…目标•结束本次讲座时,你可以–熟悉分布式系统、Hadoop的背景知识–理解MapReduce编程模型–使用HadoopAganda•简介•MapReduce编程模型•Hadoop•Hive简介•大规模计算面临的挑战–数据量–成本–变化,通用性•互联网应用的特性–分析型业务为主–异构环境简介•MapReduce:一种通用解决方案简介•Hadoop:山寨MapReduce中的强者•衍生项目…简介•业界动态:加快部署!•淘宝应用现状–云梯简介•总结MapReduce编程模型•AgameMapReduce编程模型•MapReduce语言学–Map:映射,空间变换–Reduce:汇总,规约MapReduce编程模型•中间数据结构:Key,Value对–map(in_key,in_value)-list(out_key,intermediate_value)–reduce(out_key,list(intermediate_value))-list(out_value)•设计MapReduce算法的核心概念MapReduce编程模型•并行能力–子任务间并行MapReduce编程模型•并行能力–Map、Reduce任务间并行MapReduce编程模型•并行能力–作业间并行MapReduce编程模型•范例练习–web点击日志统计:PV/UV–词频统计–海量数据排序–表Join•思考题:MapReduce的数据偏斜问题MapReduce编程模型•总结Hadoop•开源分布式系统实现•子项目(模块)–core–mapreduce–hdfs–hive–avro–…Hadoop•背景–Google发表有关MapReduce论文–DougCutting以及Nutch的MapReduce实现Hadoop•背景–Yahoo使用Hadoop–Hadoop成为ApacheTLP–淘宝?HadoopHDFS•分布式文件系统•设计原则–硬件错误是常态而不是异常–流式数据访问–大规模数据集–简单的一致性模型–“移动计算比移动数据更划算”–异构软硬件平台间的可移植性HadoopHDFS•HDFS特性–大容量–高容错性–高吞吐量•HDFS数据模型–包–块–文件HadoopHDFSHadoopHDFS•练习1:使用HadoopHDFS–习题1:基本操作•上传文件到HDFS•查看/设置文件的备份数•删除文件、文件夹–习题2:查看文件•查看文件状态•查看文件内容–习题3:使用JavaAPI读取文件内容Hadoopmapreduce•分布式计算框架•语言支持–Java–C++(throughpipes)–scriptlanguages(throughstreaming)Hadoopmapreduce•接口–mapper–reducer–combiner–partitioner–…Hadoopmapreduce•调度模型–tasks–jobs–groupsHadoopmapreduce•练习2:maprduce–习题1:基本操作•运行示例代码wordcount•查看任务结果•杀死任务–习题2:查看任务状态•命令行查看•web页面查看Hadoopmapreduce•练习2:maprduce–习题3:阅读理解wordcount代码–习题4:编写MapReduce逻辑:分布式Grep–习题5:编写MapReduce逻辑:JoinHive•MapReduce的高级语言(类SQL)支持•Facebook支持的开源软件•谁用谁知道Hive•Hive结构Hive•Hive语句一览–DDL–CREATE/DROP/ALTERTABLE–CREATE/DROPTEMPORARYFUNCTION–SHOW/DESCRIBE…–DML–LOAD–INSERT–Query–JOIN–SORT/DISTRIBUTE/CLUSTER/GROUPBY–TRANSFORMHive•自定义逻辑–UDF–TRANSFORMHive•练习3:使用Hive–习题1:建表–习题2:导入数据–习题3:查询快要结束了•Q/ASomeadvancedtopics…HadoopHDFS•HDFS不是……–随机读写?–无限的存储空间?–标准API?
本文标题:hadoop架构介绍
链接地址:https://www.777doc.com/doc-5675261 .html