您好,欢迎访问三七文档
互联网中的大数据华中科技大学软件学院软件工程1105班李浩宇U201117790、李新维U201117802、李全锋U201117804、徐平茂U2011178152014-3-11摘要:介绍了大数据的概念和特点:“4V+1C”,列举了国内外主要互联网公司在大数据上的应用,对比了中国和美国对推进大数据的发展所作出的行动,最后对大数据业务的未来发展作出展望分析。关键词:大数据、应用、信息化、互联网、云计算Abstract:Thispaperintroducestheconceptandcharacteristicsofbigdata:4V+1C,liststhemajordomesticandforeignInternetcompaniesinthebigdata,comparingtheactiontopromotethedevelopmentofChinaandtheUnitedStateshavemadebigdata,thelastofthebigfutureanalysisoftheprospectsforthedevelopmentofdataservices.Keywords:bigdata,applications,informationtechnology,internet,cloudcomputing目录1“大数据的产生”...............................................................................................................22“大数据”的特点...............................................................................................................33大数据的相关技术与解决方案...........................................................................................44国内外主要互联网公司对大数据的战略布局与应用.......................................................75国内外大数据布局与应用比较.........................................................................................116未来大数据在互联网中的应用..........................................................................................121“大数据的产生”“大数据”是一个术语,是一个带有文化基因和营销理念的词汇,但同时也反映了科技领域中正在发展中的趋势,这种趋势为理解这个世界和作出决策的新方法开启了一扇大门!“大数据”的出现不是一个偶然的事情,它是在信息化、网络化高度发达的今天,在这个数据整天飞的时代所必须要经历的过程。这个现象的出现同时又给网络安全及维护,信息攻击及防御带来了新的问题和挑战。那么到底什么是“大数据”呢?维基百科上说:大数据指的是“网络公司日常运营所生成和积累用户网络行为”,在互联网飞速发展的当代,数据增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、探索、共享、分析和可视化等方面。数据量的增长到现在,已经不是以我们所熟知的多少G和多少T来描述了,而是以P(1千T),E(1百万T)或Z(10亿T)为计量单位。百度对此给予了更形象的描述:光是其新首页导航每天就要从超过1.5PG的数据中进行挖掘,这些数据如果打印出来将超过5千亿张A4纸,摞起来会超过4万公里高,接近地球同步卫星轨道长度,平铺可以铺满海南岛。而2020年新增的数字信息成长幅度将是2009年的近45倍。如今,只需要两天就能创造出自文明诞生以来到2003年所产生的数据总量。这些数据的规模、形式超出了传统数据处理方法所能捕获、管理和处理的能力。人类的这种能力是不断进步的,所以,大数据的数据量是一个不断变化的目标。美国地理空间情报基金会(USGIF)的一个关于大数据的情况讨论会中提到人类现在处理数据能力的增长速度如今跟不上数据量的增长速度,所以,在数据面前,处理能力总是有很大的空缺。过去做信息处理的方法应该要尽快做出调整,掌握大数据的处理能力,会使得在之后的信息处理各个领域掌握主动权。另外,大数据,不仅仅是指大量的数据,也不是仅仅指数据的指数增长速度,它是对需要对当前架构需要做出调整的数据进行在理解上的新的方式和理念。对数据整合算法,数据结构理解使用上的新的方法的研究势在必行。2“大数据”的特点(1)Variety(多样化)大数据一般包括以事务为代表的结构化数据、以网页为代表的半结构化数据和视频和语音信息为代表的非结构化等多类数据,并且它们的处理和分析方式区别很大。(2)Volume(海量)通过各种智能设备产生了大量的数据,PB级别可谓是常态,估计国内外大型互联网企业每天的数据量已经接近TB级别。(3)Velocity(快速)大数据要求快速处理,因为有些数据存在时效性。比如电商的数据,假如今天数据的分析结果要等到明天才能得到,那么将会使电商很难做类似补货这样的决策,从而导致这些数据失去了分析的意义。(4)Vitality(灵活)在互联网时代,和以往相比,企业的业务需求更新的频率加快了很多,那么相关大数据的分析和处理模型必须快速地适应新的业务需求。(5)Complexity(复杂)虽然传统的商务智能(BI)已经很复杂了,但是由于前面4个V的存在,使得针对大数据的处理和分析更艰巨,并且过去那套基于关系型数据库的BI开始有点不合时宜了,同时也需要根据不同的业务场景,采取不同的处理方式和工具。以上新时代下“大数据”的特点决定它肯定会对当今信息时代的数据处理产生很大的影响。图一大数据技术处理框架图3大数据的相关技术与解决方案大数据的一些相关技术如下:1)分析技术数据处理:自然语言处理技术统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真2)数据技术数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等3)存储技术结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据:图片、视频、word、pdf、ppt等文件存储,不利于检索、查询和存储半结构化数据:转换为结构化存储,按照非结构化存储4)成熟的解决方案Hadoop(MapReduce技术):Hadoop框架中最核心的设计就是:MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(HadoopDistributedFileSystem)的缩写,为分布式计算存储提供了底层支持。MapReduce从它名字上来看就大致可以看出个缘由,两个动词Map和Reduce,“Map(展开)”就是将一个任务分解成为多个任务,“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。在分布式系统中,机器集群就可以看作硬件资源池,将并行的任务拆分,然后交由每一个空闲机器资源去处理,能够极大地提高计算效率,同时这种资源无关性,对于计算集群的扩展无疑提供了最好的设计保证。任务分解处理以后,那就需要将处理以后的结果再汇总起来,这就是Reduce要做的工作。图二MapReduce结构示意图HDFS是分布式计算的存储基石,Hadoop的分布式文件系统和其他分布式文件系统有很多类似的特质。分布式文件系统基本的几个特点:1、对于整个集群有单一的命名空间。2、数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前无法看到文件存在。3、文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会由复制文件块来保证数据的安全性。图三HDFS结构示意图下面综合MapReduce和HDFS来看Hadoop的结构:图四Hadoop结构示意图在Hadoop的系统中,会有一台Master,主要负责NameNode的工作以及JobTracker的工作。JobTracker的主要职责就是启动、跟踪和调度各个Slave的任务执行。还会有多台Slave,每一台Slave通常具有DataNode的功能并负责TaskTracker的工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。Hadoop的优点及使用场景:1、可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。2、经济:框架可以运行在任何普通的PC上。3、可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。4、高效:分布式文件系统的高效数据交互实现以及MapReduce结合LocalData处理的模式,为高效处理海量的信息作了基础准备。4国内外主要互联网公司对大数据的战略布局与应用大数据技术与业务发展,仍然以欧美国家大型IT公司为主进行。像上一拨“云计算”的热潮一样,大数据日渐成为IT厂商竞相抢占的制高点,图五是2011年大数据厂商的收益分析,数据来自Wikibon。图五2011年大数据厂商收益分析(1)国际商用机器(IBM)IBM是商业分析和大数据技术的最活跃厂商之一。早在大数据概念进入媒体视野之前,IBM就提出“智慧地球”的说法,其核心是把“智慧”嵌入系统和程之中,使服务的交付、产品开发、制造、采购和销售得以实现,使亿万人生活和工作的方式变得更加智慧。现在,大数据技术为IBM提供了一种实现途径。近年来,IBM先后投资了SPSS、Clarity、OpenPages、i2、Algorithmics等公司用以开发其商业分析解决方案,为客户提供预知判决、防范诈骗、风险和威胁的能力。此外,IBM雇佣了近9000名具有专业行业知识的资深分析咨询师,建立起了由8个全球分析解决方案中心联接起来的网络。IBM大数据平台建立在开源的ApacheHadoop之上。通过向用户提供分析的整合手段从而理解信息以求得更好的商业效益,此平台能够使数据密集型应用软件更方便地管理和分析PB级大数据。IBM正在扩展其大数据平台以使其能在Hadoop的其它运营平台上运行,首先将推广至Cloudera。Cloudera对于Hadoop社区的发展作出了重大贡献,同时也较早地为金融服务、政府、通信、媒体、零售、能源、医保等行业的客户提供了基于Hadoop的系统。Hadoop的Cloudera用户现在能够使用IBM大数据平台进行复杂的数据分析,建立新一代的软件应用程序。(2)甲骨文(Oracle)甲骨文公司在官方文档中将自身描述为“第一个为企业提供完整、集成的大数据全面解决方案的厂商”。它将大数据来源划分成为三类:1)传统企业数据,如CRM系统,ERP系统,在线交易数据等;2)机器生成/传感器数据,如呼叫记录,网络日志,智能度表,设备日志等;3)社交数据,如用户反馈系统,微博和校友录等等。甲骨文认为大数据对企业来说非常重要,可以帮助企业更深刻和透彻地理解商业行为,进而为改进服务,提高竞争力和更好地创新提供帮助。甲骨文将大数据平台的行为概括为:数据获取、数据组织和数据分析。并为这三个阶段开发了不同的产品,而这些产品又与其推出的“大数据机”完全集成到一起。Oracle大数据机是一个硬、软件集成系统,融合了Cloudera公司的DistributionIncludingApacheHadoop和ClouderaManager
本文标题:互联网中的大数据
链接地址:https://www.777doc.com/doc-2740689 .html