您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 第二讲大数据应用分析
3Sept2008©NEUSOFTSECRET第二讲大数据应用分析内容提要1.大数据背景介绍2.HADOOP体系架构3.基于HADOOP的大数据产品分析4.基于HADOOP的大数据行业应用分析IDC定义:为了更为经济的从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。大数据定义及特点大数据对系统的需求•Highperformance–高并发读写的需求高并发、实时动态获取和更新数据•HugeStorage–海量数据的高效率存储和访问的需求类似SNS网站,海量用户信息的高效率实时存储和查询•HighScalability&&HighAvailability–高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间断服务商业模式驱动应用需求驱动云计算改变了IT,而大数据则改变了业务云计算是大数据的IT基础,大数据须有云计算作为基础架构,才能高效运行通过大数据的业务需求,为云计算的落地找到了实际应用大数据和云计算的关系大数据云计算大数据市场分析12011年-2016年中国大数据市场规模2各行业大数据市场规模政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。2012年中国大数据市场规模达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。7大数据涉及诸多不同的领域用户生成数据DeepWeb数据多模态内容数据天文气象基因医学经济物理其他领域网络与关系数据8大数据的价值•科研价值–1998年图灵奖得主、数据库技术奠基人JimGray认为数据驱动的研究将是第四种科学研究范式•”TheFourthParadigm:Data-IntensiveScientificDiscovery”–大数据已为多个不同学科的研究工作提供了宝贵机遇•经济价值–麦肯锡全球研究院:大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益–著名Gartner公司:到2015年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手20%•工业价值–分析使用:揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解–二次开发:创造出新产品和服务。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式•社会价值–例如:2009年淘宝网推出淘宝CPI来反映网络购物的消费趋势和价格动态•其他价值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名出版公司O‘Reilly的创始人TimO‘Reilly深网挖掘深空探索2012年我国神州九号进入太空深海探测2012年我国蛟龙号探测水下7000米实现大数据价值的深度挖据和高度利用!大数据的战略意义•大数据的深度资源挖掘与价值利用是国家战略•从深空+深海深网9大数据的产业价值大数据是各行各业面临的共同问题•促进工业与信息产业的生产效率提升•未来产业竞争的核心要素研究共性问题,突破核心技术10大数据的现实需求:感知现在11感知现在:历史数据与当前数据的融合,潜在线索与模式的挖掘,事件、群体与社会发展状态的感知中国发展指数(物价、环境、健康)需求:掌握现状,如淘宝CPI、环境指数难点:PB级社会媒体数据,百亿级日志数据,结构与非结构数据关联,历史与流式数据并存犯罪线索挖掘需求:发现线索,如罪犯行为轨迹难点:PB级日志数据、EB级监控数据中发现嫌疑人及其行为模式犹如大海捞针问题与挑战:数据规模巨大、模态多样、关联复杂、真伪难辨现有数据处理方法感知度量难、特征融合难、模式挖掘难11大数据的现实需求:预测未来联合国“全球脉动”(GlobalPulse):利用网络大数据预测失业率与疾病爆发等现象,利用数字化的早期预警信号来提前指导援助项目。问题与挑战:数据交互性强、实时性强、动态演变,导致传统数据计算方法:数据生命周期的割裂、时效性与准确性难以兼顾、演变趋势难以预测基于Twitter数据的选举结果预测:通过对Twitter等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选结果。预测未来:全量数据、流式数据、离线数据的关联分析,态势与效应的判定与调控,揭示事物发展的演变规律,进而对事物发展趋势进行预测1213美国的大数据规划-大数据上升为国家意志•2012年3月29日,美国联邦政府整合6个部门宣布2亿美元的“BigDataResearchandDevelopmentInitiative”–促进采集、存储、维护、管理、分析和共享海量数据的核心技术;–利用以上技术来加速科学与工程发现的步伐,强化国家安全,改变教育和学习;–培养开发和使用大数据技术的人力资源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA14欧盟的大数据规划-基础设施是先导•Horizon2020-TheFrameworkProgrammeforResearchandInnovation–面向大数据的数据信息化基础设施(E-Infrastructure)是优先资助领域•GRDI2020-GlobalResearchDataInfrastructures–建立针对科研大数据的基础设施,实现数据管理系统、数字数据图书馆、研究图书馆、数据工具和研究团体的整合•FP7Call8IntelligentInformationManagement-BigData–预算5千万欧元,2012-1-17截止–目标:•提升发现、分析、开采、使用大数据及其基础设施的能力•通过对大数据收集与分析创造更大价值•探索基于大规模互联数据资源与专用基础设施的新型科学研究•面向大数据的人力资源开发15目前大数据的规模IDC公司发布的数字宇宙研究报告称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB(1021)。IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。预计到2020年,全球将总共拥有35ZB的数据量2011年企业创造、采集、管理和储存信息的成本已经下降到2005年的1/6,而同期企业关于数据的总投资自2005年以来却反而上升了50%。数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据类型的增加导致现有数据空间维度增加,极大地增加了未来大数据的复杂度。16目前大数据规模─示例•天文观测数据:–SloanDigitalSkySurvey:2000年部署•几周收集的数据比历史上收集的数据还多•每晚收集200G的数据,已收集了140TB=1.4x105GB的数据–LargeSynopticSurveyTelescope:2016年完成部署•每5天可收集105GB的数据•物理实验数据:–LargeHadronCollider:2010年一年产生13PB=1.3x107GB数据•互联网数据:–Facebook:用户超7亿,每月上传10亿照片,每天生成3x105GB日志数据–淘宝:有3.7亿会员,在线商品8.8亿,每天交易数千万,产生2x104GB数据•IBM估计:–全球每天生成2.5EB=2.5x109GB数据,90%的已有数据是过去两年生成的•Cisco预测:–到2013年,互联网上的数据将达到667EB=6.67x1011GB17大数据总量增长态势181.收集的数据还没有实现高度共享和深度利用2.超大规模:为保证可靠性,需要存储数据副本,实际存储的数据量数倍于净数据量3.时空属性:包含时间与位置信息4.模糊高维:数据未必精确和完整:传感器误差,网络中断……5.数据维度高:例如一次体检可以得到数百项生命体征数据大数据特点19大数据与常规数据的对比常规数据范围广模态多增长快关联繁数据规模较小模态属性受限增长速度较慢关联相对简单稠密与稀疏共存冗余与缺失并在动态与静态互现显式与隐藏均有特性问题描述与存储的挑战分析与理解的挑战挖掘与预测的挑战挑战大数据应用目标相对比较明确数据结构相对比较简单时序长持续时间较短处理方法通常为模型化、参数化20学术界对大数据的关注2012年1月,NaturePhysics上出版专刊“Complexity”特别指出大数据为科学研究,特别是复杂性科学的研究提供了史无前例的机遇2008年,Nature出版专刊“BigData”从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了大数据所带来的技术挑战2011年,Science刊登专刊“DealingwithData”讨论了数据洪流(Datadeluge)所带来的挑战,也特别指出倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用2012年4月,欧洲信息学与数学研究协会会刊ERCIMNews上出版专刊“BigData”讨论了大数据时代的数据管理、数据密集型研究的创新数据库技术等问题,并介绍了欧洲科研机构开展的研究活动和取得的创新性进展21大数据会议/Workshop•BDA:InternationalConferenceonBigDataAnalytics––2012:12月24-26日,印度;第1届•BigMine:WorkshoponBigData,StreamsandHeterogeneousSourceMining:Algorithms,Systems,ProgrammingModelsandApplications––2012:与SIGKDD合办;8月12日,北京;第1届•BigDataEurope系列会议––展示大数据实践与方案;加强业界人员交流–2012:Zurich,Vienna,Paris,Frankfurt,London–2013:Stockholm,Warsaw,Istanbul•BigDataAnalytics2012––6月20日,伦敦学术会议工业会议内容提要1.大数据背景介绍2.HADOOP体系架构3.基于HADOOP的大数据厂商分析4.基于HADOOP的大数据行业应用分析大数据主要应用技术——Hadoop据IDC的预测,全球大数据市场2015年将达170亿美元规模,市场发展前景很大。而Hadoop作为新一代的架构和技术,因为有利于并行分布处理“大数据”而备受重视。ApacheHadoop是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成。优点:可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济:框架可以运行在任何普通的PC上。可靠:分布式文件系统的备份恢复机制以及MapRed
本文标题:第二讲大数据应用分析
链接地址:https://www.777doc.com/doc-3839279 .html