您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据处理技术研究101523
大数据处理技术研究大数据处理技术研究企业信息化部2012年10月中国电信广东公司综合部广东省电信有限公司1目录概述大数据技术介绍讨论交流中国电信广东公司综合部广东省电信有限公司2引言Watson使用的是IBMPower750服务器集群,整个系统由90台服务器构成,总共2880个CPU核,15TB内存Watson的领域知识库包括百科全书、字典、地理类、娱乐类的专题数据库、新闻报道、经典著作等比赛的问题都是自然语言表述的,Watson问答系统中用到的技术主要包括搜索、自然语言处理、机器学习等等在相关技术的帮助下,Watson能够回答那些以人类说话方式提出的不可预测的问题,它以分析形式评估证据,假设应答结果,并计算每种可能性的可信度,它在数秒内提供一个最有可能正确的答案2011年,在美国举行的益智大赛“Jeopardy!”(危险边缘)上演人机对决,超级计算机“WATSON”技高一筹,战胜了该节目的两名“常胜将军”,笑纳100万美元奖金中国电信广东公司综合部广东省电信有限公司3数据爆发性增长近几年来,随着移动通信终端、互联网、电子商务、社交网络等领域技术的迅猛发展,数据量出现持续高速增长,出现了从未有过的大规模数据爆炸.2013年新浪微博每日内容更新量超过1亿,注册用户超过3亿;全球最大的视频网站YouTube日访问量已经超过10亿次;Facebook一天新增评论32亿条,分享3亿张照片,淘宝网站每天交易量和访问量更是千万级别根据IDC的一份名为“数字宇宙”的报告,未来10年里,数据和内容将持续高速增长,预计到2020年全球数据使用量将会达到35.2ZB,而且80%的数据是非结构化的注:1ZB=1024EB1EB=1024PB1PB=1024TB1TB=1024GB1GB=1024MB每位美国人每分钟写3条微博,而且还是不停地写2.69万年几百亿个满载的16GBiPAD1.8ZB数据=?福克斯电视台热门电视连续剧《24小时》连续播放1亿多年几百万个美国国会图书馆藏书信息量(藏书1亿+册,250TB+)中国电信广东公司综合部广东省电信有限公司4大数据发展动态2011年5月,EMCWorld2011大会主题,EMC抛出了“大数据”(BigData)概念2011年6月底,IBM、麦肯锡等众多国外机构发布“大数据”相关研究报告,予以积极跟进2011年10月,Gartner认为2012年十大战略技术将包括“大数据”2011年11月底,IDC将“大数据”放入2012年信息通信产业十大预测之一2011年11月底,由CSDN举办的中国大数据技术大会在北京成功举行2011年12月,中国券商大量推出“大数据”主题研究报告,大数据在中国证券市场正成燎原之势2012年1月,瑞士达沃斯论坛上,一份题为《大数据,大影响》(BigData,BigImpact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样2012年3月,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,把“大数据”上升到了国家战略的层面中国电信广东公司综合部广东省电信有限公司5IT厂商动态各大IT厂商纷纷针对大数据进行布局,推出各自的解决方案和产品ORACLE-2010年12月,第二版OracleExadata数据库机更名为“OracleExadata数据库云服务器”-2011年10月,宣布推出OracleExalytics商务智能云服务器(OracleExalyticsBusinessIntelligenceMachine)-2012年1月,发布Oracle大数据机(BigDataAppliance),包含OracleNoSQL数据库、Cloudera的分布式Hadoop及开源R编程语言IBM-2011年5月,发布专门针对大数据分析的平台产品InfoSphereBiginsights和InfoSphereStreams-2012年2月,推出一体机分析工具IBMNetezzaCustomerIntelligenceAppliance,该工具可以进行快速复杂的实时分析-2012年4月,收购分布式计算环境集群和网格管理软件公司PlatformComputingEMC-2010年7月,宣布收购分布式数据仓储技术提供商Greenplum公司-2011年12月,推出支持大数据分析的平台EMCGreenplum统一分析平台(UAP),包括EMCGreenplum关系数据库、EMCGreenplumHDHadoop发行版和EMCGreenplumChorusTERADATA-2011年3月,宣布收购非结构化数据处理工具软件厂商AsterDataSystem公司HP-2011年2月,宣布收购数据管理和数据分析公司Vertica-2011年11月,推出基于X86硬件的HPVertica中国电信广东公司综合部广东省电信有限公司6大数据的概念“大数据”这一术语的内涵远远超越了“大”或是“数据”的含义。大数据不简单等同于海量数据,其基本特征包括:数据量大(Volume)、类型繁多(Variety)、时效性强(Velocity)、价值密度低(Value),使用传统数据库工具难以有效进行处理维基百科——大数据是指一个数据集,它尺寸的增长已经让现有的数据库管理工具相形见拙,这些困难包括数据采集、存储、搜索、分享、分析和可视化麦肯锡——大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合——该定义可以从两个角度来分析:一方面是数据容量的不断扩大,数据集合的范围已经从MB-》GB-》TB-》PB-》EB-》ZB。另一方面,日益增长的集成式大数据已不再适宜于用当前管理数据库的工具来进行分析处理。其难点包括:数据的抓取,存储,检索,共享,分析以及可视化等IDC——满足4V(Variety、Velocity、Volume、Value,即种类多、流量大、容量大、价值高)指标的数据称为大数据FORRESTER——大数据的4项典型特征:海量(Volume)、多样性(Variety)、高速(Velocity)和易变性(Variability)。海量是指大数据的规模特点在于数量庞大,未来企业将不可避免地迎接数据浪潮的冲击;多样性是指多种结构数据,包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型;高速是指数据被创建和移动的速度越来越快;易变性是指大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析中国电信广东公司综合部广东省电信有限公司7目录概述大数据技术介绍讨论交流中国电信广东公司综合部广东省电信有限公司8大数据技术产生的原因随着互联网的不断发展,各种类型的应用层出不穷,对技术提出了更多的需求,虽然关系型数据库已经在业界的数据存储方面占据了不可动摇的地位,但是由于其天生的几个限制,使其很难满足以上需求-低延迟的读写速度:应用快速反应能极大地提升用户的满意度-支撑海量的数据和流量:对于搜索这样大型应用而言,需要利用PB级别的数据和能应对百万级的流量-大规模集群的管理:系统管理员希望分布式应用能更简单的部署和管理-庞大运营成本的考量:在硬件成本、软件成本和人力成本能够有大幅度地降低新需求-读写慢:这种情况主要发生在数据量达到一定规模时由于关系型数据库的系统逻辑非常复杂,使得其非常容易发生死锁等并发问题,所以导致其读写速度下滑非常严重-有限的支撑容量:现有关系型解决方案还无法支撑Google这样海量的数据存储-扩展困难:由于存在类似Join这样多表查询机制,使得数据库在扩展方面很困难-成本高:企业级数据库的License价格很惊人,并且随着系统规模的扩大而不断上升RDBMS的问题新机会为了以上的需求,业界推出了新兴的数据库或者说数据管理技术,主要有NOSQL和NEWSQL两大类NOSQL:从构建分布式系统的视角出发,首先解决量的问题NEWSQL:从继承SQL/ACID处理能力的视角出发,构建分布式系统中国电信广东公司综合部广东省电信有限公司9CAP理论在2000年的PODC(PrinciplesofDistributedComputing)会议上,美国著名科学家,同时也是著名互联网企业Inktomi的创始人EricBrewer提出了著名的CAP理论。2002年,SethGilbert和NancyLynch证明了CAP理论的正确性。CAP理论指的是:Consistency(一致性)、Availability(可用性)、TolerancetonetworkPartitions(分区容错性),任何分布式系统只可能同时满足二点,没法三者兼顾AvailabilityConsistencyPartitionCAAPCPACID模型:关系型(SQL)分布式数据库的理论基础ACID是Atomicity(原子性),Consistency(一致性),Isolation(隔离性),andDurability(持久性)的缩写。Atomicity(原子性):事务的原子性是指事务中包含的所有操作要么全做,要么全不做(allornone)。Consistency(一致性):在事务开始以前,数据库处于一致性的状态,事务结束后,数据库也必须处于一致性状态。Isolation(隔离性):事务隔离性要求系统必须保证事务不受其他并发执行的事务的影响,也即要达到这样一种效果:对于任何一对事务T1和T2,在事务T1看来,T2要么在T1开始之前已经结束,要么在T1完成之后才开始执行。这样,每个事务都感觉不到系统中有其他事务在并发地执行。Durability(持久性):一个事务一旦成功完成,它对数据库的改变必须是永久的,即便是在系统遇到故障的情况下也不会丢失。数据的重要性决定了事务持久性的重要性BASE模型:非关系型(NoSQL)分布式数据库的理论基础BASE来自于互联网的电子商务领域的实践,它是基于CAP理论逐步演化而来,核心思想是即便不能达到强一致性(Strongconsistency),但可以根据应用特点采用适当的方式来达到最终一致性(Eventualconsistency)的效果。2002年来自ebay的DanPritchett在《BASE:AnAcidAlternative》文章中正式提出了BASE概念。BASE是BasicallyAvailable、Softstate、Eventuallyconsistent三个词组的简写,是对CAP中C&A的延伸。BASE的含义:(1)BasicallyAvailable:基本可用;(2)Soft-state:软状态/柔性事务,即状态可以有一段时间的不同步;(3)Eventualconsistency:最终一致性;BASE是反ACID的,它完全不同于ACID模型,牺牲强一致性,获得基本可用性和柔性可靠性并要求达到最终一致性ORACLE、DB2Hbase、GoogleBigTableCouchDB、KAI中国电信广东公司综合部广东省电信有限公司10NOSQL的数据模型传统的数据库在数据模型方面,主要是关系型,它的特色是对Join类操作和ACID事务的支持。在NoSQL领域,其主要特征是数据分片、动态分区、高可用性以及宽松的一致性保证,有三种主流的数据模型:列式、键值对、文档Column-oriented(列式)列式也主要使用Table这样的模型,但是它并不支持类似Join这样多表的操作,它的主要特点是在存储数据时,主要围绕着“列(Column)”,而不是像传统的关系型数据库那样根据“行(Row)”进行存储,也就是说,属于同一列的数据会尽可能地存储在硬盘同一个页(Page)中,而不是将属于同一个行的数据存放在一起,这样做的好处是,对于很多类似数据仓库(DataWarehouse)的应用,虽然每次查询都会处理很多数据,但是每次所涉及的列并没有很多,这样如果使用列式数据库的话,将会节省大量I/O,并且大多数列式数据库都支持ColumnFamily这个特性,通过这个特性能
本文标题:大数据处理技术研究101523
链接地址:https://www.777doc.com/doc-26789 .html