您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据研究现状及热点应用介绍+051256
大数据交流提纲顺序题目侧重点讲解人时间1大数据研究现状及热点应用介绍大数据发展、热点应用、架构黄绍辉9:00~10:002化工销售大数据应用设想大数据价值、数据资源分析、应用展望索寒生10:00~10:30讲解和时间安排如下:大数据研究现状及热点应用介绍2014年5月石化盈科信息技术有限责任公司MES事业部目录目录二、大数据的技术实现三、大数据的热点应用四、大数据应用架构和技术架构3一、大数据的研究现状一、大数据的研究现状4《世界存储、传输与计算信息的技术能力》马丁·希尔伯特,普里西拉·洛佩兹随着数字化信息的发展,人类产生和储存的数据量呈现爆发式增长,全球的总存储数据量的量级已突破艾字节(EB)甚至泽字节(ZB)(1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB)2000年,数字存储信息只占全球数据量的25%,75%的信息存储在报纸、书籍、胶片、磁带上。到2007年,人类共存储超过300EB的数据,其中数字数据占到93%。到2013年,全球总存储数据量达到1.2ZB,其中数字数据占比将超过98%。数字数据的存储量维持每三年增长一倍的高速增长信息数据化程度的大幅提升,推动了大数据的商业价值显现数字数据93%数字数据98%2000数字数据25%2007300EB20131.2ZB一、大数据的研究现状5数字化信息的处理,以容量为标准的划分1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB一、大数据的研究现状6据Wikibon公司测算,2012年全球大数据产值已经达到51亿美元。预计到2017年将达到534亿美元,年均增速达到58%,是同期IT产业增速的7倍来源:Wikibon公司,2012年722012年各行业大数据市场规模计世资讯预测,2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。一、大数据的研究现状12011年-2016年中国大数据市场规模计世资讯认为,2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展计世资讯预测,2013年大数据市场迎来增速为138.3%的飞跃,2016年整个市场规模逼近百亿0%81%138%107%110%92%90%0%30%60%120%150%020406080100市场规模增长率CCWResearch2012/04互联网15%电信11%流通4%金融11%医疗9%制造9%教育4%零售6%能源8%交通4%政府15%其他4%CCWResearch2012/04一、豌豆实验-大数据的应用之道8孟德尔(GregorJohannMendel)(1822~1884)奥地利人,是遗传学的奠基人。1856年,孟德尔就开始了长达8年的豌豆实验。从不同种子供应商买来34个品种的豌豆,从中挑选出22个品种用于实验。它们都具有某种可以相互区分的稳定性状,例如高茎或矮茎、圆料或皱料、灰色种皮或白色种皮等。通过人工培植这些豌豆,对不同代的豌豆的性状和数目进行细致入微的观察、计数和分析。运用这样的实验方法需要极大的耐心和严谨的态度。起初,孟德尔豌豆实验并不是有意为探索遗传规律而进行的。初衷是希望获得优良品种,只是在试验的过程中,逐步把重点转向了探索遗传规律。除了豌豆以外,孟德尔还对其他植物作了大量的类似研究,其中包括玉米、紫罗兰和紫茉莉等,以证明1865年发现的遗传规律对大多数植物都适用。一、曹冲称象-大数据的分布处理之道9工具(秤)的处理能力有限,当超出其能力范围之后,应当如何处理?是造更大的工具(超级的大秤),还是智慧地将要称的物(大象)拆分成对等的物(石块)?“分而治之”是处理大事物的解决之道,只需将大事物分解到小工具能处理的大小,复制更多的小工具来同时处理,最后将每一个部分的结果汇总起来,就是对大事物的处理结果10Google大数据的诞生Google云计算MapReduceBigTableGFSChubby一、Google大数据-大数据的平台搭建之道1998年,斯坦福大学的博士生拉里·佩奇和谢尔盖·布林在车库中创办了Google公司。两位年轻人没有找到大笔的投资,不得不用廉价PC和自己动手做的小软件来构建网站,所依靠的最核心的3项技术就是Google的分布式文件系统GFS、MapReduce编程模式和分布式数据库BigTable。经过15年的发展,Google在全球部署了大约200万台服务器,每天处理数以亿计的搜索请求,存储每天新增的24PB数据一、诺兰模型11美国管理信息系统专家诺兰(Richard·L·Nolan)通过对200多个公司、部门发展信息系统的实践和经验的总结,提出了著名的信息系统进化的阶段模型,即诺兰模型。起步:只有个别人具有使用计算机的能力;一般发生在一个组织的财务部门蔓延:数据处理能力迅速发展;出现数据冗余、不一致性、难以共享等问题;计算机使用效率不高控制:成立了领导小组;采用了数据库技术;这一阶段是计算机管理变为数据管理的关键集成:建立集中的DB及相应的IS;增加大量硬件,预算费用迅速增长数据管理:开始选定统一的数据库平台、数据管理体系和信息管理平台,统一数据的管理和使用,各部门、各系统基本实现资源整合、信息共享。IT系统的规划及资源利用更加高效成熟:信息系统可以满足企业各个层次的需求,从事务处理到高层管理的决策。企业真正把IT同管理过程结合起来,将组织内部、外部的资源充分整合和利用,提升了企业的竞争力和发展潜力一、诺兰模型的总结12数据管理阶段,企业管理高层已经意识到企业信息战略的重要性,开始着手企业信息资源的统一规划数据成熟阶段,企业和数据同步发展,数据是企业整体面貌的镜像,企业“以数据为镜”做出发展决策尽管诺兰提出这一模型的时间是20世纪80年代,但在30多年后的今天,人们不难发现他预见的准确性。企业的信息化建设必然会走到以数据为中心的发展阶段,无论是否愿意,这条规律都是不可违背一、大数据的研究现状132004年--最初的版本由DougCutting和MikeCafarella开始实施2006年1月--DougCutting加入雅虎2006年2月--ApacheHadoop项目正式启动以支持MapReduce和HDFS的独立发展2006年2月--雅虎的网格计算团队采用Hadoop2011年12月–Cloudera授权培训认证正式进入中国2012年5月28日--ApacheHadoop2.0Alpha版本发布2013年12月--除了社区的Apachehadoop发行版以外,cloudera、hortonworks、mapR、EMC、IBM、INTEL、华为等都提供了hadoop商业版本发展过程一、大数据的研究现状14Gartner2012技术成熟度曲线一、大数据的研究现状15Gartner2013技术成熟度曲线近几年大数据不断加温,很多企业也的确面临数据量激增的现实困境,但大数据绝非仅仅是数据量大的挑战,核心问题还是取决于数据挖掘背后所能产生的价值。在经历了一段热潮之后,大数据开始实实在在的为企业解决问题。一、大数据的研究现状16应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)•纵轴契合度:表示该用户的IT应用特点与大数据特性的契合程度;•横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;HighMidLowLowMidHigh优先关注行业用户应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。值得关注行业用户应有特点与大数据的契合度及应用可能性综合较高适当关注行业用户两个维度暂时都不具备优势,可适当给予关注互联网(电子商务)契合度流通零售制造大数据存在于各个行业领域,根基市场的关注度和技术成熟度将陆续应用不同行业不同应用会使用不同的产品和方案来满足自身的实际需要一、大数据的研究现状17国外业界对大数据宽泛的认知第一,数据体量巨大,根据IDC的研究数据显示,预计到2015年全世界将会有8万亿GB的信息量第二,数据类型繁多,包括以往文本为主的结构化数据,也包括网络日志、音频、视频、图片、地理位置信息等大量的非结构化数据第三,处理速度快,1秒定律第四,大数据的3V构成也导致其数据价值高但价值密度低的特点,也被称为大数据特点的第4个V,即数据价值Value8万亿GB2015全球信息量1s数据处理速度85%非结构化数据占比数据价值Volume数据体量大Variety数据类型多Velocity处理速度快Value大量用户群体海量计算大量数据管理数据分析一、大数据的研究现状18国内业内人士对大数据的认知数据在线“知著、见微、晓意”-大数据的解决之道目录目录二、大数据的技术实现三、大数据的热点应用四、大数据应用架构和技术架构19一、大数据的研究现状20诞生Google云计算MapReduceBigTableGFSChubbyMapReduce→MapReduceGFS→HDFSBigTable→HbaseChubby→ZooKeeper二、大数据的技术实现二、大数据的技术实现21大数据处理的平台解决方案大数据储存大数据处理数据分享数据检索数据分析数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构二、大数据的技术实现22Hadoop是个体系HIVEBigDataApplicationsPig!ZooKeeperSQLRAW二、大数据的技术实现23大数据处理的平台解决方案传统并行计算架构并行计算+分布式存储运算储存传统储存架构•计算与存储一体,计算向数据靠拢,高效专用存储模式•为程序员屏蔽通性、并发、同步与一致性等问题•任务之间无依赖(share-nothing),具有高系统延展性(scale-out)。二、大数据的技术实现24HadoopVSRDBMSRDBMSHadoop资料量GB-TBTB-PB存取方式交互式与批次批次数据更新多次读写一次写,多次读数据结构固定schema无schema资料一致性高(ACID)低扩充性非线性线性二、大数据的技术实现25Hive–SQLlikeHadoopDatabaseDriver(compiler,optimizer,executor)metastoreDataNodeDataNodeDataNodeDataNodeHadoopClusterM/RM/RM/RM/RWebUICLIJDBCODBCCreateM/RJob二、大数据的技术实现26Sqoop–SQLtoHadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreateMapTasks二、大数据的技术实现27传统数据处理流程运营信息物料信息工艺参数操作信息数据仓库其他信息大部份删除ETL部份资料二、大数据的技术实现28探索的数据处理流程物料信息工艺参数操作信息效益分析?工艺分析?报警分析?运营信息数据仓库二、大数据的技术实现29Spark:大数据的“电光石火”Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,罕见的全能型选手轻:Spark0.6核心代码有2万行,Hadoop1.0为9万行,2.0为22万行。一方面,感谢Scala语言的简洁和丰富表达力;另一方面,Spark很好地利用了Hadoop和Mesos的基础设施。虽然很轻,但在容错设计上不打折扣快:Spark对小数据集能达到亚秒级的延迟,这对于HadoopMapReduce是无法想象的。就大数据集而言,对典型的迭代机器学习、即席查询、图计算等应用,Spark版本比基于MapReduce、Hive和Pregel的实现快上十倍到百倍灵:Spark提供了不同层面的灵活性。在实现层,完美演绎了Scalatrait动态混入策略;在原语层,它允许扩展新的数据算子、新的数据
本文标题:大数据研究现状及热点应用介绍+051256
链接地址:https://www.777doc.com/doc-28517 .html