您好,欢迎访问三七文档
大数据技术赵勇yongzh04@gmail.com电子科技大学教授计算机学会大数据专家委员会委员1数据爆炸时代近四年全球数据量16.54980135156.0196.963.268.802040608010012014016020072008200920100.050.0100.0150.0200.0250.0数据量(万PB)年增长率(%)国际数据集团“数字世界”历时三年,对全球数据量进行了调查,07年全球信息量约为16.5万PB,即使在全球遭遇金融危机的2009年,全球信息量仍达到80万PB,比上一年度增长62%。2010年这一数字将达到1.2ZB,约为2007年的8倍。这意味着TB、PB、EB已经过时,全球将正式进入数据存储的“泽它时代”,进入数据爆炸时代。数字世界”调查预测,未来十年,全球总体信息量将是现在的44倍。数字化时代数据爆炸时代2海量数据12+TBsoftweetdataeveryday25+TBsoflogdataeveryday?TBsofdataeveryday2+billionpeopleontheWebbyend201130billionRFIDtagstoday(1.3Bin2005)4.6billioncameraphonesworldwide100sofmillionsofGPSenableddevicessoldannually76millionsmartmetersin2009…200Mby20143数据分析复杂度startreportDOCK6Receptor(1perprotein:definespockettobindto)ZINC3-DstructuresligandscomplexesNABscriptparameters(definesflexibleresidues,#MDsteps)AmberScore:1.AmberizeLigand3.AmberizeComplex5.RunNABScriptendBuildNABScriptNABScriptNABScriptTemplateAmberprep:2.AmberizeReceptor4.perl:gennabscriptFREDReceptor(1perprotein:definespockettobindto)ManuallyprepDOCK6recfileManuallyprepFREDrecfile1protein(1MB)6GB2Mstructures(6GB)DOCK6FRED~4Mx60sx1cpu~60Kcpu-hrsAmber~10Kx20mx1cpu~3Kcpu-hrsSelectbest~500~500x10hrx100cpu~500Kcpu-hrsGCMCPDBproteindescriptionsSelectbest~5KSelectbest~5K癌症制药1个靶点:400万任务500,000cpu-小时(50cpu-年)4大数据BigData•大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合•大数据=“海量数据”+“复杂类型的数据”•涉及各个行业领域–电力、电信、经贸、教育、医疗、金融、石油、民航–天文、气象、基因、医学、物理、互联网–与人类社会活动有关的网络数据5大数据特征不同结构的复杂数据:关系型数据、日志和文本数据流量大:数据处理从批处理转向流处理大容量:从TB、PB到ZB数据即资源,体现价值,数据中能挖掘出价值信息Variety:Velocity:Volume:Value:6数据==价值数据正在成为各行各业,乃至每个人最关心、最有价值的东西医生需要了解病人病历以及典型病人治疗方式相关数据,以便对症治疗;疾病预防中心需要了解疫情爆发、扩散的相关数据,以便做好疫情防御;医院需要病床、药品及季节行流行病相关数据,以便统一部署医疗设施;股票经济人需要对股票行情数据分析,判定下一个市场投资热点;公司供应链需要了解产品进销存数据,以便下一步备料生产;企业经营者需要对市场数据进行分析,以便制定企业下一步的市场策略;投资者需要靠数据进行投资前景、可行性进行分析评估,确保投资收益;民航、酒店需要了解旅客的出行规律,以便更好的服务客户;商场、商家需要了解顾客的生活习惯、购物心理,制定最有效市场推广方式;商业网站则需要了解用户的网络浏览方式,以便推出更贴切客户习惯的产品;癌症研究者需要了解分子结构和癌分子的绑定数据,以便研制新型的抗癌药;石油勘探需要需要了解地质数据并分析建模;气象工作者需要了解海洋气候数据,以便发布及时准确发布;78区域发展气候信息行业信息市场信息国家战略投资信息经济信息生活咨询贸易信息旅游咨询计算应用分析加工个人生活相关(投资理财、居家生活、旅游出行)企业发展相关(投资前景、市场战略、市场先机)区域经济发展(区域规划、城市发展、发展先机)国家发展战略(全球经济、国计民生、政策法规)数据影响到我们生活周边的各个方面。大数据蓝海大数据处理的意义9•云计算等新兴信息技术正在真正地落地和实施•云计算等新兴信息技术恰恰是是解决大数据问题的核心关键大数据不是噱头,是技术发展的必然阶段•有充足的应用场景•有一个系统科学的方法论•合理的人才和知识储备•有极为广泛的创新动机应用背景对大数据的推动作用大于其他条件•关键技术和核心技术各国之间的差距不是很大,这是追赶和减少绑架进而实现自主创新的最大契机大数据是一个不可多得的发展机遇市场环境•美国奥巴马政府2012年推出了“大数据研究和发展倡议”,并投资2亿美金支持大数据的研发,说明大数据已成为信息科技领域的热点。•资本市场高度关注大数据技术型企业的发展–风投机构AccelPartners设立1亿美元专项基金–大数据分析公司Splunk,首日上市IPO即上涨109%–大数据软件提供商Birst公司今年已经从红杉资本等机构获得了2600万美元的投资–为开源大数据技术Hadoop的商业版本提供销售和支持服务的Cloudera获得7500万美元投资–MapR、10Gen、DataStax等大数据软件服务商近期都完成了千万美元级的融资。10市场预测根据Wikibon最近发布的报告,大数据市场正处在井喷式增长的前夕,未来五年全球大数据市场价值将高达500亿美元。国内云计算及大数据市场已经初步具备发展态势,据研究表明,大数据市场规模也将从2010年的167亿元增长到2013年的1174亿元,年均复合增长率达到91.5%。11市场规模•计世资讯预测,2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。12十大发展趋势预测•数据的资源化•大数据的隐私问题突出•大数据与云计算等深度融合•基于大数据的智能的出现•大数据分析的革命性方法•大数据安全•数据科学兴起•数据共享联盟•大数据新职业•更大的数据13最令人瞩目的学科大数据分析与预测分布式计算社会计算14大数据问题15•导入导出问题•统计分析问题•检索查询问题•实时响应问题速度方面的问题•多源问题•异构问题•原系统的底层架构问题种类及架构问题•线性扩展问题•动态调度问题体量及灵活性问题•大机与小型服务器的成本比对•原有系统改造的成本把控成本问题•数据分析与挖掘问题•数据挖掘后的实际增效问题价值挖掘问题•结构与非结构•数据安全•隐私安全存储及安全问题•数据标准与接口•共享协议•访问权限互联互通与数据共享问题大数据技术•报表、图形、可视化工具、增强现实计算结果展现•查询、统计、分析、预测、挖掘、图谱、BI数据计算•分布式文件系统,分布式数据库数据存储•ETL工具数据采集•云计算平台、云存储、分布式文件系统等基础架构支持16大数据处理平台离线处理平台•Hadoop交互式处理平台•Spark,Impala流处理平台•S4,Storm17Hadoop开源大数据平台18•分布式处理框架•分为Map和Reduce两个阶段•分布式文件存储•数据分布在多个节点上•自备份,自恢复•高级脚本式语言•优势:高扩展性–能够存储和处理PB级的数据高可靠性–采用冗余存储,能够自恢复灵活性–可以存储各类数据经济–采用普通PC,开源软件Hadoop在Yahoo!的应用•2010年Yahoo有超过38000台服务器,有超过4000个以上的服务器集群,数据总量达到了170PB,每日的数据增量在10TB以上。•Yahoo的Hadoop应用包含有搜索、日志处理(Analytics,Reporting,Buzz)、用户建模、内容优化,垃圾邮件过滤器以及广告计算等。•以网络分析为例,Yahoo目前有超过100亿个网页,1PB的网页数据内容,2万亿条链接,每日面临这300TB的数据输出。19Hadoop在alibaba的应用•集群容量–约3200台服务器–物理CPU~30000核–内存~100TB–磁盘~36000块–存储容量~60PB20•集群负载–每天Job数150,000+道–每天Hivequery数6,000+–每天扫描数据量~7.5PB–每天扫描文件数~4亿–存储利用率~80%–CPU利用率~65%峰值80%Impala21基于Hadoop的交互式分析平台•数据分析师已经熟悉的SQL接口•以交互的方式在Hadoop上处理大数据•为数据分析而生,避免用户仅仅为了数据分析而花费建模和ETL的成本Storm流式数据处理•简单的编程模型。•容错性。自动管理工作进程和节点的故障。•水平扩展。计算在多个线程、进程和服务器之间并行进行。•快速可靠的消息处理。保证消息能得到快速的处理。22结构化vs非结构化数据2323SQL:结构化存储,固定Schema索引标准化查询语言ACID扩展性弱NoSQL:Schema不固定,可以动态改变没有固定查询语言可以扩展到很大规模高容错性最终一致性NoSQL非结构化数据库24•海量数据存储和访问‒Facebook上亿条用户动态•高并发数据库读写‒每秒上万次读写请求•高可扩展性‒动态横向扩展,不需停机维护和数据迁移•高可用性‒24x7在线,数据不丢失大数据统一计算平台解决方案25持续计算持续计算流数据块数据全局数据持久化存储缓存结果合并数据采集统一编程模式用户及应用持续计算实时计算持续计算离线计算大规模计算26输入数据大小大中小11千1百万任务数量传统MPI任务HPC数据分析挖掘MTC大数据和很多任务MTC很多松散耦合应用HTC/MTC•高性能计算(HPC)–原来也叫超级计算–紧耦合的应用–MPI为主,低延迟网络–用FLOPS衡量•高吞吐计算(HTC)–网格、集群中–松耦合序列任务–操作/每月(年)衡量•ManyTaskComputing(MTC)–HPC和HTC之间–网格、集群、超级计算机、云–面向HPC的松耦合应用–短时间内用到很多资源行业大数据应用的挑战27行业大数据解决方案•云燕:大规模任务流程管理系统–应用定制–复杂流程管理–自动容错机制–可视化•云鹰:–大规模任务调度系统轻型高效的任务调度:每秒分发几千个任务–高可扩展性支持:上千万任务、数十万CPU–跨数据中心资源协同使用–自动负载均衡•云龙:云资源管理监控系统–集中统一的计算平台:资源共享,弹性调度–虚拟镜像:自动应用环境部署–完善的监控及日志功能28云燕系统架构29云燕解决海量数据计算中数据的多样复杂性、系统的异构性、系统流程管理问题;自动实现并行化的运行,能够运行于集群、网格、超级计算机及云平台上。高效的云鹰调度器30在云平台上实现动态、高速、高效的,具备高可扩展性的任务调度的技术,能够支持大规模的任请求(多达千万计的任务),大规模的运行器(数以百万计),应付海量任务需求。云龙:云资源管理监控•集中统一的云计算平台–资源共享,弹性调度•集群及网络管理–自动创建、注销虚拟机计算集群,并配置网络•虚拟机镜像管理–根据应用需求生成镜像–自动应用环境部署•完善的监控及日志功能–对虚拟机集群进行监控–自动重启31管理调度160000个CPU核32应用实例:医药学靶点分析33CPU核:118784任务数:9
本文标题:大数据技术34
链接地址:https://www.777doc.com/doc-27350 .html