您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 1大数据培训教程-大数据的来源和动机77
ANEWPLATFORMFORANEWERA2©Copyright2013Pivotal.Allrightsreserved.2©Copyright2013Pivotal.Allrightsreserved.BeInternetional大数据,盛名难负3©Copyright2013Pivotal.Allrightsreserved.Agenda1.大数据的时代背景2.大数据时代的典型技术4©Copyright2013Pivotal.Allrightsreserved.4©Copyright2013Pivotal.Allrightsreserved.1.大数据的时代背景5©Copyright2013Pivotal.Allrightsreserved.大数据浪潮兴起的主要脉络2008年9月,NATURE,“SPECIALS:BigData”12月,计算社区联盟,“BigDataComputing:CreatingRevolutionaryBreakthroughsinCommerce,Science,andSociety”2009年10月,ToyHey,“The4thParadigm:Data-IntensiveScienceDiscovery”2011年2月,SCIENCE,“SPECIALS:DealingwithData”5月,EMCWorld’2011,“CloudMeetsBigData”6月,麦肯锡,“BigData:TheNextFrontierforInnovation,competition,andproductivity”6月,IDC(SponsoredbyEMC),“DIGTIALUNIVERSE:ExtractingValuefromChaos”2012年1月,达沃斯世界经济论坛,“BigData,BigImpact:NewPossibilitiesforInternationalDevelopment”3月,美国奥巴马政府,“BigDataResearchandDevelopmentInitiative”5月,联合国,“BigDataforDevelopment:ChallengesandOpportunities”6©Copyright2013Pivotal.Allrightsreserved.美国政府的大数据计划具有很强烈的宣传符号色彩3月29日:奥巴马政府以“BigDataisaBigDeal”为题发布新闻。宣布投资2亿美元启动“大数据研究和发展计划”以图增强收集海量数据、分析萃取信息的能力。与工业界、大学研究界、非营利性机构与管理者一起利用大数据所创造的机会。5月23日:在TechCrunchDisrupt大会上,透露了5项将要颁布的重要联邦举措。其核心是政府开放数据计划,将政府数据和一些企业数据公开,以图改善美国人的生活方式,进而创造工作岗位。6个首先启动大数据计划的政府部门中,国家科学基金会的研究内容提到要“形成一个包含数学、统计基础和计算机算法的独特科学”,其他大多是应对挑战的数据工程类项目,如国防部高级技术研究局•多尺度异常检测项目•网络内部威胁项目•INSIGHT(网络威胁自动识别)•MachineReading项目•Mind’sEys(机器视觉)项目•VIRAT(军事图像分析与预警)•XDATA(半结构化与非结构化数据的计算技术与软件工具)7©Copyright2013Pivotal.Allrightsreserved.ObamaElectionTOPContributor8©Copyright2013Pivotal.Allrightsreserved.9©Copyright2013Pivotal.Allrightsreserved.麦肯锡的咨询报告比较系统的确立了大数据的概念10©Copyright2013Pivotal.Allrightsreserved.11©Copyright2013Pivotal.Allrightsreserved.更为深远的可能是“数据科学”的最终兴起Allthemodelsarewrong,andincreasinglyyoucansucceedwithoutthem.-FromPeterNorvig,GOOGLE2007年,已故图灵奖得主吉姆.格雷(JimGray)在他最后一次演讲中描绘了数据密集型科研“第四范式”(The4thParadigm)的愿景。即相对于试验科学(第一范式)、理论科学(第二范式)、计算科学(第三范式)而言。数据科学继承了统计学的很多东西。。。强调后见之明(hindsight)或预见(foresight)而非洞察(insight)强调相关关系(correlation)而非因果关系(causality)Correlationisenoughandtheendoftheory!*“DataScience”在字眼上最早由EMC提出。。。12©Copyright2013Pivotal.Allrightsreserved.BigData是什么–用于承载所有的概念BigData的定义–盛名之下,其实难负–广义的:大数据已经不再局限于技术领域。如今,大数据已成为一项业务上优先考虑的工作任务,因为它能够对全球整合经济时代的商务产生深远的影响。除了为应对长期存在的业务挑战提供解决方案之外,大数据还为流程、组织、整个行业、甚至社会本身的转型激发了许多新的方式。–狭义的:BigData泛指数据集的大小,产生的速度和数据类型超过了通常的数据库,数据管理软件在限定的时间范围内所能获取,存储,管理和分析的范畴。这是一个相对的概念,不能从绝对意义上指明某一个数值来定义,而且这个相对的标准根据所处的行业和客户的不同千差万别13©Copyright2013Pivotal.Allrightsreserved.市场曲线14©Copyright2013Pivotal.Allrightsreserved.14©Copyright2013Pivotal.Allrightsreserved.2.大数据时代的典型技术15©Copyright2013Pivotal.Allrightsreserved.以GOOGLE为代表的互联网公司是大数据发展的始作俑者大数据可以说发轫于GOOGLE于2003年陆续发表的一些技术论文-“TheGoogleFileSystem”-“MapReduce:SimplifiedDataProcessingonLargeCluster”-“Bigtable:ADistributedStorageSystemforStructuredData”HDFS是GFS的开源实现Fackbook的HayStack解决了海量小文件(如图片)的存储问题NoSQL(NotOnlySQL)GOOGLE的BIGTABLEAMAZON的DYNAMOYAHOO的PNUTSACIDvsBASEBasicallyavailableSoftstateEventuallyconsistent以弱一致获取高可用基于SPANNER的混合型数据库F1(用于GOOGLE的广告系统)融合兼有了BIGTABLE的高扩展性与SQL数据库的可用性和功能性16©Copyright2013Pivotal.Allrightsreserved.BigData的代表技术•Agileprovisioning•Elasticcomputepower•Scalablestorageresources•Devicemanagementandanalytics•Geolocationinformation•Socialbusinessinteractions•Datastreamsanalysis•HighperformanceInfrastructure•Ultralowresponsetime•HorizontalscalabilityHadoopNoSQLStreaming•PureSQLandRDBMSapproach•BetterhorizontalscalabilitythantraditionalRDBMS•RelativelowhardwareinfrastructureMPPDB17©Copyright2013Pivotal.Allrightsreserved.SQLOnHadoop数据库的扩展,延伸和增强是Hadoop技术在目前企业市场最迫切,最可行和可落地的需求Hadoop技术的可接受度是一个大问题–MapReduce运算模式与以往的方式大相径庭,具有比较陡峭的学习曲线–以Hadoop技术为平台的系统的设计,开发,实施,运维,优化对于企业来说是巨大的挑战SQL支持为大数据技术的落地打开了一扇大门–成熟的社区和技术体系架构–业界大量的数据依然是结构化数据Pre-ProcessingHubQuery-ableArchiveExploratoryAnalysisInformationIntegrationDataWarehouseStreamsReal-timeprocessingHadoopLandingzoneforalldataDataWarehouseHadoopCancombinewithunstructuredinformationDataWarehouse1231.海量数据集成预处理2.历史数据管理系统3.跨域探索性分析18©Copyright2013Pivotal.Allrightsreserved.+ConsistencyAvailabilityTolerancetonetworkPartitionsCAPTheorem你只能最多同时具备两个方面19©Copyright2013Pivotal.Allrightsreserved.分布式计算之MPPShared-Nothing架构演进共享磁盘例如:InformixXPSOracleRACDB2pureScaleDBSAN/共享磁盘DBDBDB网络SAN/FC完全共享例如:SMP服务器DB磁盘无共享例如:GreenplumDBDBDBDB网络磁盘磁盘磁盘磁盘MasterMPP注:蓝灰色表示共享资源20©Copyright2013Pivotal.Allrightsreserved.动态数据的实时分析流数据结构或非结构化动态数据流流计算实时对流数据进行分析计算静态数据上的历史数据分析批处理模式查询驱动:静态数据提交查询依靠数据库,数据仓库传统计算模式流计算模式QueriesMemoryDiskMemoryDiskEventDataQueriesAlertsActions流计算21©Copyright2013Pivotal.Allrightsreserved.21©Copyright2013Pivotal.Allrightsreserved.3.互联网和大数据环境下的金融实践22©Copyright2013Pivotal.Allrightsreserved.23©Copyright2013Pivotal.Allrightsreserved.24©Copyright2013Pivotal.Allrightsreserved.25©Copyright2013Pivotal.Allrightsreserved.26©Copyright2013Pivotal.Allrightsreserved.这表明了什么?商业模式的差异是巨大的–互联网所有的模式都是以客户中心,流量,入口,体验至上(真正的以人为本),有两个案例▪1.XX行的警告短信▪2.某欧洲企业的前台,对于人的尊重,对比其他国内企业–传统行业▪怎么赚钱▪怎么卖▪怎么盈利互联网不懂传统行业–这是劣势,也是优势(经验是一种桎梏,守成也许适用,但是开拓未必)27©Copyright2013Pivotal.Allrightsreserved.27©Copyright2013Pivotal.Allri
本文标题:1大数据培训教程-大数据的来源和动机77
链接地址:https://www.777doc.com/doc-955912 .html