您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 第4章大数据时代-120645
第4章大数据时代Iscoming……全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…在web2.0的时代,人们从信息的被动接受者变成了主动创造者BigData时代到来TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临..BigData时代到来1.Volume2.Variety3.value4.Velocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合什么是BigData数据量巨大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量20世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念BigData名词由来1并购进行技术整合2自身提高研发实力相较于“大数据”一词在2011年才开始蹿红不同,在计算机研究领域和产业界,“大数据”早已众人皆知,各大IT巨头纷纷布局大数据业务,通过收购大数据相关厂商来实现技术整合,以图抢占全新的制高点各大IT企业纷纷推出自身的大数据分析产品,包括Google、IBM、EMC、Oracle、微软、惠普、SAP、Teradata,这些企业几乎囊括了目前全球最顶尖的搜索服务、数据库、服务器、存储设备、企业解决方案的主要提供商,足以显示大数据在产业界的汹汹来势BigData名词由来大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合什么是BigData技术云计算与大数据白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!分布式“云计算”(CloudComputing)是分布式处理(DistributedComputing)、并行处理(ParallelComputing)和网格计算(GridComputing)的发展,或者说是这些计算机科学概念的商业实现。——百度百科AAvailabilityCAP理论一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个——EricBrewerCConsistencyPPartitionTolerance分布式计算是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。CAP博弈分区容错性是不能牺牲的AmazonDynamo是一个经典的分布式Key-Value存储系统,具备去中心化,高可用性,高扩展性的特点,但是为了达到这个目标在很多场景中牺牲了一致性。支付宝这样的交易和账务数据则是非常敏感的,通常不能容忍超过秒级的不一致KeyValue分布式存储系统查询速度快、存放数据量大、支持高并发不能进行复杂的条件查询辅以实时搜索引擎进行复杂条件检索、全文检索,可替代并发性能较低的关系型数据库,节省几十倍服务器数量B+TreeHash算法大数据时代下的系统需求•Highperformance–高并发读写的需求高并发、实时动态获取和更新数据•HugeStorage–海量数据的高效率存储和访问的需求类似SNS网站,海量用户信息的高效率实时存储和查询•HighScalability&&HighAvailability–高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间断服务RDBMSVS.NoSQL高并发读写大数据存储的核心需求高效率存储和访问高可扩展性和高可用性低成本建设运维保证一致性的开销过大,难以实现高并发存储性能受限于控制器,性能难以保证关系型表单存储难以适应不同数据类型上亿行数据的超级达标效率极低传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高许可和维护花费高昂无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展数据库升级需要停机维护和数据迁移,导致服务中断不保证遵循ACID原则,提高并发读写性能Schema-Free存储适应不同数据类型舍弃SQL标准功能,尽量简化数据操作,提升效率MapReduce实现高效访问基于X86设备,价格低廉开源系统,节省许可费用支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力数据库升级不影响服务持续NoSQL•NoSQL运动两个核心理论基础:•Google的BigTableBigTable提出了一种很有趣的数据模型,它将各列数据进行排序存储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保证。•Amazon的DynamoDynamo使用的是另外一种分布式模型。Dynamo的模型更简单,它将数据按key进行hash存储。其数据分片模型有比较强的容灾性,因此它实现的是相对松散的弱一致性:最终一致性。NoSQL是NotOnlySQL的缩写,而不是NotSQL,它不一定遵循传统数据库的一些基本要求,比如说遵循SQL标准、ACID属性、表结构等等。相比传统数据库,叫它分布式数据管理系统更贴切,数据存储被简化更灵活,重点被放在了分布式数据管理上。BigTable为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。Key-Value映射:(row:string,column:string,time:int64)→string数据模型支撑技术Bigtable的表会根据行键自动划分为片(tablet),片是负载均衡的单元。用GFS来存储日志和数据文件按SSTable文件格式存储数据用Chubby管理元数据参考文献:《TheChubbylockserviceforloosely-coupleddistributedsystems》——Google论文BigTable一个供客户端使用的库一个主服务器(masterserver)许多片服务器(tabletserver)BigTable集群片的定位B+树Chubbyfile:保存roottablet的位置roottablet:元数据表的第一个分片其它的元数据片NoSQL数据库NoSQL数据库•使用现状大数据的技术领域-分布式系统关键技术之Hadoop/MRHadoop,包括HDFS和其上的MR,被认为是解决大数据中必不可少的一项技术和产品。它能轻易实现各种批量数据处理,而且因为其设计的简化,能轻易分布到海量的X86服务器上,2000、3000节点的Hadoop场景是较为常见的。优点处理各种结构的数据灵活的处理方式,通过Java编写MR框架易于扩展、伸缩,达到3000节点以上(因其非对等节点模型设计)缺点(对原生解决方案而言)对灵活的查询的支持和响应速度流水线操作优化Map和Reduce大量数据交换问题案例:淘宝、支付宝、腾讯产品:BC-ETL/OC-ETL/SmartMiner储备:两期云计算ETL在经分中应用研究,目前在开展四省试点腾讯在天津投资建立亚洲最大的数据中心;新浪推出企业微博产品,提供精准的数据分析服务。商业价值在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么被大数据驱动的新生代商业格局淘汰。标准的虚拟化及分布式存储内存计算技术——SAP中国区企业信息管理咨询资深顾问杜韬Hadoop数据应用策略、数据流技术机器学习算法——百度首席科学家威廉.张Hadoop数据采集、数据存储、数据处理——Yahoo!北京全球软件研发中心架构师韩轶平持续创新传统的企业级数据仓库产品线收购AsterDataHadoop、MapReduce——Teradata首席客户官周俊凌马云的判断来自于数据分析商业价值——淘宝双“十一”背后的技术讨论系统逻辑架构系统物理架构性能对比OceanBase大数据众生态在全球经济的很多领域,大数据在以很多的方式创造价值。事实上,研究表明:随着消费者、公司、各个经济领域不断挖掘大数据的潜力,我们正处在一个巨大的浪潮的尖峰,这个浪潮,就是大数据驱动的创新、生产效率提高、经济增长以及新的竞争形式和新的价值的产生。——《大数据:下一个创新、竞争和生产率的前沿》麦肯锡全球研究所2011年5月在对全球100个国家及地区从事30个行业的3000名高管进行的调查中,有60%的受访者表示无法有效利用所有数据。而近期IBM对64个国家及地区从事19个行业的1700名首席营销官开展的最新调查更是进一步体现了出这个问题的严峻性:调查结果显示,71%的首席营销官表示他们的企业没有做好充分准备来应对大数据的挑战。——《IBM-麻省理工斯隆管理学院评论》2011年大数据不是一个单独的市场,它无处不在,以一切可以想象出的方式影响着商业。大数据的涌入将迫使产品、业务和解决方案发生变化。这种变化非常快,企业可能不得不淘汰要求的现有解决方案。2012年大数据将直接或间接拉动全球960亿美元IT支出,预计这一数据2013年将达到1200亿美元,2016年达到2320亿美元。新支出将流向社交媒体、社交网络分析和内容分析。支持大数据需要使用大量服务,高达软件采购支出的20倍。拥有相应技能的人才非常稀缺,但需求旺盛。——Gartner2012年10月大数据各家看点有人认为大数据是大麻烦,有人认为大数据是大挑战,有人认为大数据是大机遇。还有大知识、大科技、大利润、大发展…麻烦个人隐私,信息安全,各种各样的海量数据,从来不删除数据,对并发读取、写入的要求极高,每次可能访问上PB的数据,真麻烦!挑战传统数据库、小型机、阵列不是为了大数据的业务需求设计的,非常吃力,成本高,根本无法支撑。是一个挑战!机遇在大数据的时代,数据就是直接的财富、就是核心的竞争力,很多行业,都要相继跨入一个数据兴则企业兴、数据强则企业强的竞争时代!大数据已经上升到美国政府国家战略2010年12月,总统行政办公室下属的科技技术顾问委员会,信息技术顾问委员会向奥巴马和国会提交了《规划数据未来》的专门报告,该报告把数据收集和使用的工作,提到了战略的高度。“如何收集、保存、维护、管理、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战。如
本文标题:第4章大数据时代-120645
链接地址:https://www.777doc.com/doc-30189 .html