您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 行业分析 > CS502大数据工程师行业分析32页
大数据工程师行业分析ByKeren@bittigerbittiger.io,来自硅谷的终身学习平台与BigData相关的工作❏DataScientist❏DataEngineer❏BigDataEngineer❏MachineLearningScientist❏BusinessAnalyticsSpecialist❏Statistician❏DataVisualizationDeveloper❏BusinessIntelligence(BI)Engineer❏BISolutionsArchitect❏BISpecialist❏AnalyticsManager❏MachineLearningEngineer大数据时代的职业规划?三大热门大数据职业区别和过渡KeyFacts●专业化的数据工作者,包括数据科学家、数据工程师和数据分析师。●Gartner咨询公司2014年发布报告,估计全球的数据科学家人才缺口已达到440万。由于数据价值的继续增加,数据成本的持续下降,人才的供应则持续紧缺。●数据人才缺口会持续扩大,形成历史上最大规模的职业人才缺口。此前最大的岗位缺口比例,是达到30%的软件工程师岗位,而数据人才的缺口,目前已经达到了65%。数据科学家与数据工程师的相辅相成数据科学家采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。数据科学家倾向于用探索数据的方式来看待周围的世界。把大量散乱的数据变成结构化的可供分析的数据,还要找出丰富的数据源,整合其他可能不完整的数据源,并清理成结果数据集。数据工程师深刻理解统计学科的软件工程师。如果你正为一个商业问题烦恼,那么你需要一个数据工程师。他们的核心价值在于他们借由清晰数据创建数据管道的能力。充分了解文件系统,分布式计算与数据库是成为一位优秀数据工程师的必要技能。数据工程师对演算法有相当好的理解。因此,数据工程师理应能运行基本数据模型。商业需求的高端化催生了演算高度复杂化的需求。DataArchitect,DataEngineer,DataAnalyst,DataScientist比较数据工程师?●数据工程师则为数据分析师和数据科学家搭建分布式计算的软件平台。●谷歌的首席经济学家表示“数据科学家是21世纪最性感的职业。数据非常之多且有战略意义,但是我们缺少从数据中提取价值的人。”这是大数据时代最重要,也是最难以被机器替代的岗位。●数据工程师覆盖了SystemEngineer,DataArchitect的职责。数据工程师需要掌握的技能●数学及统计学相关的背景●计算机编码能力:Java,SQL,Python,Hadoop●对特定应用领域或行业的知识什么是Hadoop?Hadoop是数据分析类领域市场份额最大的大数据开发软件。1200多家公司在Siftery上面表明自己正在使用Hadoop来进行数据engineering等方面的工作。消息来源:Siftery()使用Hadoop的大公司有哪些?❏AWSbyAmazon❏Facebook❏Google❏Microsoft❏LinkedIn❏Bloomberg❏Cisco❏Paypal❏Intel❏Hortonworks❏Cloudera❏PivotalSoftwareSalesforce,Intuit,Google,VMware,Facebook,HP,Adobe,Accenture,Target,Rackspace,Twitter,AmericanExpress,AT&T,PayPal,Nike,Allstate,FedEx…IBM,Experian,Johnson&Johnson,Boeing,Sprint,Oracle,Airbnb,Sabre,DIRECTV,MasterCard,Nielsen,Barnes&Noble,PNCFinancialServices,NBCUniversal,LiveRamp,AppNexus,Thumbtack,LithiumTechnologies,andmanyothers.这些公司都用Hadoop做什么?Facebook:Usedasasourceforreportingandmachinelearning.Twitter:Tostoreandprocesstweets,logfilesusingLZOwhichisaportablelosslessdatacompressionlibrarywritteninANSIC.ItisfastandalsohelpsreleaseCPUforothertasks.LinkedIn:LinkedIn'sdataflowsthroughHadoopclusters.Useractivity,servermetrics,images,transactionlogsstoredinHDFSareusedbydataanalystsforbusinessanalyticslikediscoveringpeoplewhomyoumayknow.IBM:Clientprojectsinfinance,telecomandretail,MachinelearningwithWatsonAnalytics.Infosys:Clientprojectsinfinance,telecomandretail.TCS:Clientprojectsinfinance,telecomandretail.Spotify:Usedforcontentgenerationanddataaggregation.这些公司都用Hadoop做什么?(II)JPMorgan:Analyticsonthetransactionsofthecustomers.Amazon:Dataprocessingbyanalyzingthecustomerreviewsandrequirements.Adobe:Socialservicestostructureddatastorage.Ebay:With300+millionusersbrowsingmorethan350millionproductslistedontheirwebsite,eBayhasoneofthelargestHadoopclustersintheindustrythatisrunprominentlyonMapReduceJobs.HadoopisusedbyeBayforSearchOptimizationandResearch.Netflix:Fordecisionmaking.Aol:Targetsmachinesanddualprocessors.Alibaba:Analyzesverticalsearchengine.Hadoop在大数据之中的核心位置大数据工程师就业分析招聘大数据工程师最多的十个公司十大雇佣大数据工程师的行业❏科技行业❏信息行业❏制造业❏金融保险行业❏零售业❏管理类辅助性行业❏教育行业❏其他行业(如公共部门)❏医疗行业需要大数据工程的十大职业在美国,大数据工程师的工作分布招聘大数据工程师的地点和薪水与BigData相关的工作增长率Glassdoor数据:大数据工程师薪资大数据工程师平均年薪为11.9万美元(折合人民币73.7万元)。一个拥有博士学位的大数据工程师的起薪通常是六位数,工作两年后,就可以轻松赚到20万至30万美元的年薪。而程序员平均年薪为6.5万美元(折合人民币40.1万元)。平均工资计算:❏DataEngineer--USD115K❏DataScientist--USD122K❏DataAnalyst--USD92Kbittiger.io大数据工程师直通车老师介绍课程相关技术介绍❏Hadoop:Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。❏Spark:Spark是一个高效的分布式计算系统,相比Hadoop的Mapreduce计算框架,它在性能上比Mapreduce要高100倍。Spark提供比Hadoop更上层的API,同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。Shark类似“SQLonSpark”,是一个在Spark上数据仓库的实现,在兼容Hive的情况下,性能最高可以达到Hive的一百倍。❏HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化数据集群。像Facebook,都拿它做大型实时应用,比如:Facebook'sNewRealtimeAnalyticsSystem:HBasetoProcess20BillionEventsPerDay。课程相关技术介绍❏Pig:Yahoo开发的,并行地执行数据流处理的引擎,它包含了一种脚本语言,称为PigLatin,用来描述这些数据流。PigLatin本身提供了许多传统的数据操作,同时允许用户自己开发一些自定义函数用来读取、处理和写数据。在LinkedIn也是大量使用。❏Hive:Facebook领导的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。像一些datascientist就可以直接查询,不需要学习其他编程接口。❏Zookeeper:一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现。课程亮点❏第一阶段:BigDataInfrastructure强化训练❏目标:搭建一个实时的数据分析平台❏第二阶段:Apache开源项目强化训练❏目标:熟练掌握基于Hadoop的数据分析,Hadoop的基本UseCase和Pig/Hive的编程,有真实大数据系统的实战经验,同时还将具备开源软件的开发能力❏第三阶段:公司实习-Capstone项目❏目标:在经历两个月高强度学习与实战之后,每位学员将被分配相应的项目目标并在老师的指导下完成。两位主讲老师将以Manager的身份监督引导学员完成各自项目。并可以将完成项目作为实习经历写进自己的简历课程亮点❏第四阶段:增添Bigdata职位实习经历❏在完成第三个月的公司实战级别的Capstone项目并得到老师的认可之后的同学,将可以把这段经历作为一个在美短期实习经历写进简历。但因实习名额有限,课程将限制人数。❏第五阶段:打造最强简历和面试,做好求职冲刺❏简历增加项目❏强大面试指导❏真实模拟面试课程流程(I)❏与课程经理咨询,确定背景与课程的匹配度❏在课程主页报名后,提交简历❏课程管理员将为学员创立专属学员档案,用于跟进学员进度、提供个性化辅导。❏提前使用课程预习资料❏在课程主页的ebooks部分,查看电子书资料❏与老师进行大约30min的摸底调查,为以后codelab、项目、面试、简历修改等做好准备❏课程正式开始前,老师将联系学员并进行30分钟电话摸底测验,测验内容为live-coding。通过摸底测验来了解学员编程能力,并以此为依据对学员进行分组,参加有针对性的CodeLab强化训练。
本文标题:CS502大数据工程师行业分析32页
链接地址:https://www.777doc.com/doc-6794780 .html