您好,欢迎访问三七文档
大数据课程:基础阶段:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis。hadoopmapreducehdfsyarn:hadoop:Hadoop概念、版本、历史,HDFS工作原理,YARN介绍及组件介绍。大数据存储阶段:hbase、hive、sqoop。大数据架构设计阶段:Flume分布式、Zookeeper、Kafka。大数据实时计算阶段:Mahout、Spark、storm。大数据数据采集阶段:Python、Scala。大数据商业实战阶段:实操企业大数据处理业务场景,分析需求、解决方案实施,综合技术实战应用。大数据之Linux+大数据开发篇JavaLinux基础Shell编程Hadoop2.xHDFSYARNMapReduceETL数据清洗HiveSqoopFlume/Oozieo大数据WEB工具HueHBaseStormStormScalaSparkSpark核心源码剖析CM5.3.x管理CDH5.3.x集群大数据之数据挖掘\分析&机器学习篇Lucene爬虫技术Solr集群KI分词Apriori算法Tanagra工具决策树贝叶斯分类器人工神经网络K均值算法层次聚类聚类算法SPSSModelerR语言数据分析模型统计算法回归聚类数据降维关联规则决策树Mahout-Python金融分析大数据之运维、云计算平台篇ZookeeperDockerOpenStack云计算大数据之PB级别网站性能优化篇CDN镜像技术虚拟化云计算共享存储海量数据队列缓存Memcached+Redis\No-SqlLVS负载均Nginx大数据之Java企业级核心技术篇Java性能调优Tomcat、Apache集群数据库集群技术分布式技术WebLogic企业级技术阶段一、大数据、云计算-Hadoop大数据开发技术课程一、大数据运维之Linux基础本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等众多课程。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。1)Linux系统概述2)系统安装及相关配置3)Linux网络基础4)OpenSSH实现网络安全连接5)vi文本编辑器6)用户和用户组管理7)磁盘管理8)Linux文件和目录管理9)Linux终端常用命令10)linux系统监测与维护课程二、大数据开发核心技术-Hadoop2.x从入门到精通本课程是整套大数据课程的基石:其一,分布式文件系统HDFS用于存储海量数据,无论是Hive、HBase或者Spark数据存储在其上面;其二是分布式资源管理框架YARN,是Hadoop云操作系统(也称数据系统),管理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控;分布式并行计算框架MapReduce目前是海量数据并行处理的一个最常用的框架。Hadoop2.x的编译、环境搭建、HDFSShell使用,YARN集群资源管理与任务监控,MapReduce编程,分布式集群的部署管理(包括高可用性HA)必须要掌握的。一、初识Hadoop2.x二、深入Hadoop2.x1)大数据应用发展、前景2)Hadoop2.x概述及生态系统3)Hadoop2.x环境搭建与测试1)HDFS文件系统的架构、功能、设计2)HDFSJavaAPI使用3)YARN架构、集群管理、应用监控4)MapReduce编程模型、Shuffle过程、编程调优三、高级Hadoop2.x1)分布式部署Hadoop2.x2)分布式协作服务框架Zookeeper3)HDFSHA架构、配置、测试4)HDFS2.x中高级特性5)YARNHA架构、配置6)Hadoop主要发行版本(CDH、HDP、Apache)四、实战应用1)以【北风网用户浏览日志】数据进行实际的分析2)原数据采集3)数据的预处理(ETL)4)数据的分析处理(MapReduce)课程三、大数据开发核心技术-大数据仓库Hive精讲hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。一、Hive初识入门1)Hive功能、体系结构、使用场景2)Hive环境搭建、初级使用3)Hive原数据配置、常见交互方式二、Hive深入使用1)Hive中的内部表、外部表、分区表2)Hive数据迁移3)Hive常见查询(select、where、distinct、join、groupby)4)Hive内置函数和UDF编程三、Hive高级进阶1)Hive数据的存储和压缩2)Hive常见优化(数据倾斜、压缩等)四、结合【北风网用户浏览日志】实际案例分析1)依据业务设计表2)数据清洗、导入(ETL)3)使用HiveQL,统计常见的网站指标课程四、大数据协作框架-Sqoop/Flume/Oozie精讲Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。一、数据转换工具Sqoop1)Sqoop功能、使用原则2)将RDBMS数据导入Hive表中(全量、增量)3)将HDFS上文件导出到RDBMS表中二、文件收集框架Flume1)Flume设计架构、原理(三大组件)2)Flume初步使用,实时采集数据3)如何使用Flume监控文件夹数据,实时采集录入HDFS中4)任务调度框架Oozie三、Oozie功能、安装部署1)使用Oozie调度MapReduceJob和HiveQL2)定时调度任务使用课程五、大数据Web开发框架-大数据WEB工具Hue精讲Hue是一个开源的ApacheHadoopUI系统,最早是由ClouderaDesktop演化而来,由Cloudera贡献给开源社区,它是基于PythonWeb框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduceJob等等。1)Hue架构、功能、编译2)Hue集成HDFS3)Hue集成MapReduce4)Hue集成Hive、DataBase5)Hue集成Oozie课程六、大数据核心开发技术-分布式数据库HBase从入门到精通HBase是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase在Hadoop之上提供了类似于Bigtable的能力,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群一、HBase初窥使用1)HBase是什么、发展、与RDBMS相比优势、企业使用2)HBaseSchema、表的设计3)HBase环境搭建、shell初步使用(CRUD等)二、HBase深入使用1)HBase数据存储模型2)HBaseJavaAPI使用(CRUD、SCAN等)3)HBase架构深入剖析4)HBase与MapReduce集成、数据导入导出三、HBase高级使用1)如何设计表、表的预分区(依据具体业务分析讲解)2)HBase表的常见属性设置(结合企业实际)3)HBaseAdmin操作(JavaAPI、常见命令)四、【北风网用户浏览日志】进行分析1)依据需求设计表、创建表、预分区2)进行业务查询分析3)对于密集型读和密集型写进行HBase参数调优课程七、Spark技术实战之基础篇-Scala语言从入门到精通为什么要学习Scala?源于Spark的流行,Spark是当前最流行的开源大数据内存计算框架,采用Scala语言实现,各大公司都在使用Spark:IBM宣布承诺大力推进ApacheSpark项目,并称该项目为:在以数据为主导的,未来十年最为重要的新的开源项目。这一承诺的核心是将Spark嵌入IBM业内领先的分析和商务平台,Scala具有数据处理的天然优势,Scala是未来大数据处理的主流语言1)-Spark的前世今生2)-课程介绍、特色与价值3)-Scala编程详解:基础语法4)-Scala编程详解:条件控11)-Scala编程详解:Map与Tuple12)-Scala编程详解:面向对象编程之类13)-Scala编程详解:面向对制与循环5)-Scala编程详解:函数入门6)-Scala编程详解:函数入门之默认参数和带名参数7)-Scala编程详解:函数入门之变长参数8)-Scala编程详解:函数入门之过程、lazy值和异常9)-Scala编程详解:数组操作之Array、ArrayBuffer以及遍历数组10)-Scala编程详解:数组操作之数组转换象编程之对象14)-Scala编程详解:面向对象编程之继承15)-Scala编程详解:面向对象编程之Trait16)-Scala编程详解:函数式编程17)-Scala编程详解:函数式编程之集合操作18)-Scala编程详解:模式匹配19)-Scala编程详解:类型参数20)-Scala编程详解:隐式转换与隐式参数21)-Scala编程详解:Actor入门课程八、大数据核心开发技术-内存计算框架Spark精讲Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点。启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。SparkStreaming:构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据1)Spark初识入门2)Spark概述、生态系统、与MapReduce比较3)Spark编译、安装部署(StandaloneMode)及测试4)Spark应用提交工具(spark-submit,spark-shell)5)Scala基本知识讲解(变量,类,高阶函数)6)Spark核心RDD7)RDD特性、常见操作、缓存策略8)RDDDependency、Stage常、源码分析9)Spark核心组件概述10)案例分析11)Spark高阶应用12)SparkonYARN运行原理、运行模式及测试13)SparkHistoryServer历史应用监控14)SparkStreaming流式计算15)SparkStreaming原理、DStream设计16)SparkStreaming常见input、out17)SparkStreaming与Kafka集成18)使用Spark对【北风网用户浏览日志】进行分析课程九、大数据核心开发技术-Spark深入剖析本课程主要讲解目前大数据领域热门、火爆、有前景的技术——Spark。在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企业真实复杂业务需求中抽取出的案例实战。课程会涵盖Scala编程详解、Spark核心编程.1)Scala编程、Hadoop与Spark集群搭建、Spark核心编程、Spark内核源码深度剖析、Spark性能调优2)Spark源码剖析课程十、大数据核心开发技术-Storm实时数据处理(赠送-选修)Storm是Twitter开源的分布式实时大数据处理框架,被
本文标题:大数据课程分类
链接地址:https://www.777doc.com/doc-28619 .html