您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 工作范文 > HADOOP学习提纲
HADOOP学习提纲1Cloudera授权Hive和Pig培训课程目标专门为数据分析和数据挖掘人员量身定做的培训科目。学员将学习和掌握使用高级脚本语言或类SQL语言来编写MapReduce任务,而无需掌握Java编程语言和熟悉HadoopAPI。通过掌握Hive和/或Pig,将极大缩短数据分析人员设计编写和调试常见数据分析问题的周期,提高工作效率;从而为企业节省费用,缩短分析结果市场化的周期。学员基础应具备基本SQL或者高级脚本语言编程经验;对Hadoop组成和工作原理有基本了解。课时为期2天课程内容Hive如何扩展MapReduce如何使用Hive创建和操作表Hive基本和高级数据类型对数据进行分区和分组高级Hive特性如何用Pig加载和操作数据PigLatin编程语言的特性用Pig解决实际数据分析问题授课形式采取教师讲解和学员上机操作相结合的形式。上机实验有机地穿插在重要课题讲解后,学员能马上学以致用,巩固刚刚所学的概念和知识,转化为自身的技能应用到实战中。我们鼓励学员在课堂上大胆自由地提问,和授课教师进行互动,获得最大的收益。课程大纲Hive导引什么是HadoopHive的动机将数据导入到HiveHive体系结构创建Hive表导入数据创建不同的数据库上机实验Hive数据操作使用SELECT语句检索数据合并表格将查询结果存入HDFS基本Hive函数上机实验对数据进行分区和分组数据分区数据分组上机实验Hive高级特性更多高级HiveQL表Hive变量创建用户自定义函数跟踪调试Hive查询Hive最佳实践配置共享元数据处理日期使用SerDesPig读写数据加载数据Pig数据结构写数据上机实验PigLatin深入数据过滤数据分组和排序Pig表达式和函数合并多个数据集验证数据集高级性能(例如COGROUP和STREAM)上机实验调试Pig代码调试Pig程序策略处理坏数据使用ILLUSTRATEPig最佳实践一般性实战经验产品化Pig代码性能优化发挥Hive和Pig优势什么情况下使用Hive什么情况下使用Pig2Cloudera授权Hadoop管理员培训课程目标专门为系统管理员和其他技术人员量身定做的课程,以进行用于产品或开发测试环境中的Hadoop机群的安装部署,管理和优化,为企业进行海量数据存储和分析搭建经济高效和高可靠的系统平台。学员基础具备基本Linux系统管理经验。不需要事先掌握Hadoop相关知识。课时为期3天课程内容Hadoop分布式文件系统(HDFS)和MapReduce的工作原理如何优化Hadoop机群所需要的硬件配置搭建Hadoop机群所需要考虑的网络因素如何利用Hadoop配置选项进行系统性能调优如何利用FairScheduler为多用户提供服务级别保障Hadoop机群维护和监控如何使用Flume从动态生成的文件加载数据到Hadoop如何使用Sqoop从关系型数据库加载数据使用其他Hadoop相关系统工具(诸如Hive,Pig和HBase)所涉及到的系统管理问题授课形式采取教师讲解和学员上机操作相结合的形式。上机实验有机地穿插在重要课题讲解后,学员能马上学以致用,巩固刚刚所学的概念和知识,转化为自身的技能应用到实战中。我们鼓励学员在课堂上大胆自由地提问,和授课教师进行互动,获得最大的收益。认证考试ClouderaApacheHadoop资格管理员考试提供业界进行Hadoop安装部署及管理调优领域里唯一且最具权威性、并得到全球认可的认证。为企业提供了高质量可以依赖的Hadoop管理员,保障了海量数据存储和处理计算平台系统的高质量;为工程师技术人员提供了最新的技术装备,开拓了职业发展。课程大纲Hadoop和HDFS入门为什么使用Hadoop?HDFS介绍MapReduce介绍Hive,Pig,HBase和其他Hadoop生态系统项目上机实验Hadoop机群规划一般考虑因素选择合适的硬件网络考虑配置节点配置和部署Hadoop机群部署种类安装Hadoop使用ClouderaManager进行简易安装典型配置参数机柜配置(RackAwareness)使用配置管理工具上机实验管理调度任务管理运行的任务上机实验先进先出调度器(FIFOScheduler)公平调度器(FairScheduler)配置公平调度器上机实验Hadoop维护检查HDFS状态上机实验Hadoop机群之间的数据拷贝增减Hadoop机群节点Hadoop机群数据负载平衡上机实验名字节点(NameNode)元数据(Metadata)的备份机群升级Hadoop机群监控和故障排除一般性系统监控管理Hadoop日志文件使用NameNode和JobTracker的WebUI上机实验使用Ganglia来监控机群常见故障问题用基准测试工具测试机群性能为Hadoop机群加载外部数据源Flume概述上机实验Sqoop概述导入数据的最佳实践安装和管理其他Hadoop项目HivePig上机实验HBase3Cloudera授权Hadoop开发员培训课程目标适用于使用ApacheHadoop来创建开发强大的数据处理应用的各类Hadoop开发技术人员。通过本课程的学习,学员将掌握开启海量数据处理技术大门的金钥匙,为企业提供前所未有的从所有不同类型数据里挖掘商业价值的机会。学员基础具备编程经验的开发人员(最好是面向对象高级编程语言,譬如Java)。不需要事先掌握Hadoop相关知识。课时为期4天课程内容Hadoop分布式文件系统(HDFS)和MapReduce的工作原理如何利用JAVAAPI或者其他编程语言来开发MapReduce应用MapReduce任务开发中的注意事项如何在Hadoop上实现常见算法Hadoop开发和调试的最佳实用经验如何利用其他Hadoop相关技术,包括ApacheHive,ApachePig,Sqoop和Oozie等满足解决实际数据分析问题的高级HadoopAPI授课形式采取教师讲解和学员上机操作相结合的形式。上机实验有机地穿插在重要课题讲解后,学员能马上学以致用,巩固刚刚所学的概念和知识,转化为自身的技能应用到实战中。我们鼓励学员在课堂上大胆自由地提问,和授课教师进行互动,获得最大的收益。认证考试ClouderaApacheHadoop资格开发员考试提供Hadoop上软件开发在业界唯一且最具权威性、并得到全球认可的认证。为企业提供高质量保证的Hadoop开发人员;为工程师技术人员提供了最新的技术装备,开拓了职业发展。课程大纲Hadoop的来源和动机传统大规模系统存在的问题对一种新的解决方案的需求Hadoop基本概念Hadoop概述Hadoop分布式文件系统上机实验MapReduce工作原理上机实验Hadoop机群剖析Hadoop生态系统编写MapReduce程序MapReduce流程剖析一个MapReduce程序基本MapReduceAPI概念驱动代码MapperReducerHadoop流API使用Eclipse进行快速开发上机实验新MapReduceAPI集成Hadoop到现有工作流关系数据库管理系统存储系统利用Sqoop从关系型数据库系统中导入数据到Hadoop上机实验利用Flume导入实时数据到Hadoop使用FuseDFS和Hoop访问HDFSHadoopAPI深入探讨ToolRunner介绍使用MRUnit进行测试利用Combiners来减少中间数据使用Configure和Close方法来进行Map/Reduce设置和关闭编写Partitioner来优化负载平衡上机实验直接访问Hadoop分布式文件系统(HDFS)使用分布式缓存(DistributedCache)上机实验常见MapReduce算法Hadoop概述Hadoop分布式文件系统上机实验MapReduce工作原理上机实验如何利用其他Hadoop相关技术,包括ApacheHive,ApachePig,Sqoop和Oozie等满足解决实际数据分析问题的高级HadoopAPI使用Hive和PigHive基础Pig基础上机实验实用开发技巧排序和搜索索引上机实验用Mahout进行机器学习TermFrequency–InverseDocumentFrequencyWordCo-Occurrence上机实验使用Hive和PigHive基础Pig基础上机实验实用开发技巧调试MapReduce代码使用LocalJobRunner模式进行轻松调试利用计数器来检索任务信息日志可分割文件格式如何确定最优的Reducer数目只使用Mapper的MapReduce任务上机试验高级MapReduce编程定制Writables和WritableComparables使用SequenceFiles和Avro文件保存二进制数据创建InputFormats和OutputFormats上机实验用MapReduce合并数据集在Map方的合并辅助排序在Reducer方的合并图的操作图论简介用Hadoop表示图一个图算法的实现:单源最短路径使用Oozie创建工作流使用Oozie的动机Oozie工作流定义格式上机实验4Hadoopapache文档
本文标题:HADOOP学习提纲
链接地址:https://www.777doc.com/doc-5675289 .html