您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据与云计算的科学内涵、关键技术及其应用
大数据的特征与科学内涵云计算的概念与关键技术云制造:大数据+云计算服务平台大数据的特征与科学内涵大数据的特征与科学内涵大数据的背景第一台计算机ENIAC面世磁带+卡片人工管理磁盘被发明,进入文件管理时代网络型SQLE-RGE公司发明第一个网络模型数据库,但仅限于GE自己的主机1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导IBME.F.Dodd提出关系模型SQL语言被发明关系型数据库ORACLE发布第一个商用SQL关系数据库,后续快速发展数据仓库数据仓库开始涌现,关系数据库开始全面普及且平台无关,进入成熟期2001年后,互联网迅速发展,数据量成倍递增,量变引起质变,开始对数据管理技术提出全新的要求1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分Hadoop成为Apache顶级项目,重点支持海量数据分布式管理和分布式计算GFS谷歌发表论文介绍分布式计算数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一个新的发展阶段。大数据的特征与科学内涵全球信息化发展已步入大数据时代150亿个设备连接到互联网全球每秒钟发送290万封电子邮件每天有2.88万小时视频上传到YoutubeFacebook每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB大数据正迅速成为最值得关注的IT领域之一2011年5月,EMCWorld2011大会主题“云计算相遇大数据”,EMC除了一直倡导的云计算外,还抛出大数据(BigData)概念2011年6月底,IBM、麦肯锡等众多国外机构发布大数据相关研究报告,予以积极跟进2011年10月,Gartner认为2012年十大战略技术将包括大数据2011年11月底,IDC将大数据放入2012年信息通信产业十大预测之一IDC全球数据量预测(1ZB=1百万PB=10亿TB)Google网站Bigdata关键词搜索及新闻引用量大数据的背景大数据的特征与科学内涵大数据的特征与科学内涵大数据的背景商业解决方案HP2011年推出vertica数据库Oracle2011年推出noSQL数据库EMC2010年收购GreenplumTeradata2011年收购Asterdata,并推出SQL-MapreduceIBM2010年收购NetezzaSAP2011年收购Sybase开源解决方案开源组织Apache在2008年将Hadoop列为顶级项目2010年HBase自Hadoop上诞生开源组织GNU2010年发布MongodbVmware2010年提供开源产品RedisTwitter2011年提供开源产品Storm商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧重,目前尚无统一的行业技术标准或技术领域细分规则互联网企业IT实力强且海量数据处理需求最为迫切,是大数据发起者、倡导者、开发者和最终使用者,大数据应用场景十分清晰Google研发Bigtable并自行使用Yahoo发起Hadoop/Hbase开源并自用,FACEBOOK、百度、淘宝等均使用Twitter开发Storm自用并提供开源传统企业IT能力有限,数据处理工作主要依赖于系统集成商,重点在应用实现,IT技术路线上以跟随成熟技术(含开源技术)为主目前还是以数据库、数据仓库技术为主,对大数据技术仍处于认知或小范围摸索实验阶段,应用场景仍在分析梳理中互联网企业传统企业大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈现百花齐放局面,并在互联网应用领域崭露头角。大数据的特征与科学内涵大数据的特征与科学内涵大数据的科学内涵“继互联网之后,能够对企业产生最大影响力的应该就是大数据(bigdata)。”——2008年9月,《自然》网络版大数据不仅仅是“大”比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值多大?TB级PB级ZB级大数据的特征与科学内涵大数据的科学内涵狭义的“大数据”定义:通常具有数十到数千TB的巨大规模,包括各种类型的非结构性数据,仅以几秒到几小时为单位进行产生——流动——消费(应用)的循环过程,用传统方式很难管理和分析的数据集合。广义的大数据狭义大数据分析人力、资源和组织数据管理、分析相关技术广义的“大数据”定义:很难用传统方式进行管理和分析的数据集合,以及为了管理和分析这些数据所必要的人力资源和组织以及相关技术大数据的特征与科学内涵大数据技术的特征:4V1.Volume2.Variety3.Value4.Velocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命数据量巨大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量大数据技术涵盖范围非常广,从获取到存储/管理的部分注重数据本身,属于科学技术的范畴;但是从分析到应用的部分注重如何解决多样而复杂的问题,因此涉及的知识和领域更加分散。总的来看大数据技术具有“4V”的特征。大数据的特征与科学内涵大数据技术的新模式▪基于SQL语言:面对OLAP的传统行和列▪不基于SQL或map-reduce的:由谷歌率先发起▪数据流:基于运行商数据直接生成任意图形新平台技术数据入口/汇聚数据平台分析新的服务模式▪传统交付模式-单片或基于设备的解决方案▪云:能够充分利用物理设施的弹性,以实现处理快速增长数据的能力“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”-ForresteranalystJimKobielus新的传输方案云计算的概念与关键技术云计算的概念与内涵云计算概念由Google提出,是一种通过网络、云计算平台,按用户需求组织网上资源(云),为用户提供各类计算服务的新计算模式。基础硬件应用软件维护人员硬件服务商软件服务商维护服务商操作人员获取硬件服务获取软件服务获取维护服务不需要硬件和各种软件,通过internet网获取服务即可传统模式的信息化云计算模式当企业规模扩大时需要对各种软件、硬件进行升级维护,并且进行人员培训扩充云计算的概念与关键技术云计算的概念与内涵云计算是一种资源交付和使用模式,指通过网络获得应用所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取。这种特性经常被比喻为像水电一样使用硬件资源,按需购买和使用。云计算的概念与关键技术云计算的基础:数据Google数据中心比利时的圣吉兰(SaintGhislain)数据中心完全依靠数据中心外面的空气来冷却系统。Google数据中心以集装箱为单位,每个集装箱有1160台服务器,每个数据中心有众多集装箱。Google一次搜索查询的能耗能点亮100瓦的灯泡11秒钟。微软在美国芝加哥的数据中心.总面积为70万平方英尺。即使只启用半数服务器,能耗也达到30兆瓦。Microsoft数据中心云计算的概念与关键技术云计算的关键技术编程模型海量数据分布存储技术MapReduce是Google开发的java、Python、C++编程模型,它是一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算。GFS即Google文件系统(GoogleFileSystem),是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。海量数据管理技术BT(BigTable)数据管理技术是建立在GFS,Scheduler,LockService和MapReduce之上的大型的分布式数据库,它把所有数据都作为对象来处理,形成一个巨大的表格,用来分布存储大规模结构化数据。虚拟化技术虚拟化技术根据对象可分成存储虚拟化、计算虚拟化、网络虚拟化等,计算虚拟化又分为系统级虚拟化、应用级虚拟化和桌面虚拟化。云计算平台管理技术云计算系统的平台管理技术能够使大量的服务器协同工作,方便的进行业务部署和开通,快速发现和恢复系统故障,通过自动化、智能化的手段实现大规模系统的可靠运营。云计算的概念与关键技术云计算的体系结构SaaS(Software-as-a-service),具有互联网特性、多租户特性和服务特性,是基于互联网提供软件服务的软件应用模式。PaaS(Platform-as-a-service),是一种分布式平台服务,厂商提供开发环境、服务器平台、硬件资源等服务给客户,用户在其平台基础上定制开发自己的应用程序并通过其服务器和互联网传递给其他客户。IssS(Infrastructure-as-a-service),是把厂商的由多台服务器组成的“云端”基础设施,作为服务提供给客户。它将内存、I/O设备、存储和计算能力整合成一个虚拟的资源池为整个业界提供所需要的存储资源和虚拟化服务器。云制造:大数据+云计算服务平台大数据与云计算的联系与区别云计算是“大脑”,解决信息的存储和处理问题,它在云端服务器上非常的强悍,同时每天在更新很多新的产品模式和服务方式。而大数据是“灵魂”,是信息发掘和知识创作的源泉,它是由数据丰富度来决定的。联系云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。一方面,云计算是大数据成长的驱动力;另一方面,由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理。区别云计算改变了IT,而大数据则改变了业务。大数据和云计算的目标受众不同。云计算是卖给CIO的技术和产品,是一个进阶的IT解决方案。而大数据是卖给CEO、卖给业务层的产品,大数据的决策者是业务层。云制造:大数据+云计算服务平台大数据与云计算技术的发展趋势发展趋势1:从单一型数据到多样化资源目前,大数据和云计算相关的技术和工具已经非常多,在未来还会继续出现新的技术和工具。在大数据生命周期的各个环节,不论是数据的采集、存储、管理,还是分析、可视化以及应用都将出现创新。传统做法面向文档数据库关系数据库视频/图像/音频文件复杂数据放在关系数据库,低价值大文件放在文件系统,彼此分离存储和访问数据库的记录就是文档,涵盖各种数据类型,数据统一管理和访问数据库可分布式部署,对外提供统一视图技术特点分布式存储所有数据保存在文件中文件中所有数据基于结构化描述语言组织,支持各种数据类型,包括大型对象(视频/音频等)支持多种类似SQL的数据检索方式适用场景网站数据存储大尺寸低价值数据多类型混杂的数据存储云制造:大数据+云计算服务平台大数据与云计算技术的发展趋势发展趋势2:从低价值分析到智能化挖掘数据分析是大数据和云计算的核心。未来大数据和云计算将充分利用机器学习、数据挖掘、模式识别、自然语言理解等人工智能基础技术,进一步实现数据分析的智能化。元数据节点Namenode文件名,文件块,文件块所在数据节点,…文件元数据123数据节点Datanode数据节点Datanode数据节点Datanode数据节点Datanode先读取文件元数据,知道文件在哪后读取各个文件块管理文件分布存储上层应用YahooAmazonFacebookEbay淘宝百度中国移动飞信中国移动大云行业应用云制造:大数据+云计算服务平台大数据与云计算技术的发展趋势发展趋势3:从批量化处理到实时性计算目前大数据和云计算系统大多采用的是批量化的处理方式,但大数据和云计算的应用突出强调数据处理的实时性,因此在未来几年内,内存计算、流处理、连续计算等实
本文标题:大数据与云计算的科学内涵、关键技术及其应用
链接地址:https://www.777doc.com/doc-3849199 .html