您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 统计图表 > 大数据系统——代表性技术和发展趋势(李晖)
大数据系统:代表性技术和发展趋势李晖cse.HuiLi@gzu.edu.cnAdvancedComputingandInformationEngineeringBigData:Gartner's2011HypeCycle2AdvancedComputingandInformationEngineeringBigData:Gartner's2012HypeCycle3AdvancedComputingandInformationEngineeringBigData:Gartner's2013HypeCycle4AdvancedComputingandInformationEngineeringOutline•大数据系统的发展背景•代表性的大数据系统•大数据系统的关键技术和技术挑战•大数据系统的发展趋势•BigData@Me•关于开展大数据科研@GZU5AdvancedComputingandInformationEngineeringOutline•大数据系统的发展背景•代表性的大数据系统•大数据系统的关键技术和技术挑战•大数据系统的发展趋势•BigData@Me•关于开展大数据科研@GZU6AdvancedComputingandInformationEngineering现状:数据增长迅速71024DataAnalysisChallenges,JSR-08-142,JASON,TheMITRECorp,12/08Bigdataintheworld传感(器)数据,流式数据,非结构化数据(如:多媒体数据),科学数据是新增数据的主要构成部分。AdvancedComputingandInformationEngineeringRealIssuesofBigData•什么是大数据?•大数据的特性有哪些?•4VofBigData8多样化(Variety)快速化(Velocity)巨量化(Volume)价值化(Value)大数据AdvancedComputingandInformationEngineeringRealIssuesofBigData•大数据与海量数据/大规模数据的区别是什么?•大数据的真正问题和焦点是什么?–高效的管理和分析数据产生价值•Volume:bigmeansmassive/large-scale;+++(amust-haveV)–ToolargefortheconventionalDB,DM,Visualizationtechniques•Velocity:++(animportantV,butnotsonew)–ManyDSMSandstreaminganalyticsworkinDBcommunity•Variety:+(oldproblem)•Value:+(oldproblem)9AdvancedComputingandInformationEngineering大规模数据管理和分析的两类解决方案•新技术方案:BigDataSystem–Newarchitecture/platform/algorithmforvariousV;–Hadoop,HBase,Hive,Storm,Impala,AsterData,GreenPlum,Dremel,etc.•传统技术方案:DatabaseSystem–PDBMS,sampling,approximateapproaches,distributedalgorithms,ML/DM,etc.10AdvancedComputingandInformationEngineering回顾:数据库技术的发展11AdvancedComputingandInformationEngineering主流数据库产品•各种关系数据库是主流–商业产品:Oracle,DB2,SQLServer–开源数据库系统12AdvancedComputingandInformationEngineering数据管理系统的核心技术•数据存储技术•结构化查询语言(SQL)•数据存取技术:各种索引•查询执行和优化•数据完整性和安全控制•事务管理:ACID特性–并发控制和数据恢复13AdvancedComputingandInformationEngineeringRelationshipsBetweenDBSystemsandBDSystems•Inthebeginning…–“MapReduce:AMajorStepBackwards”,byDeWittandStonebraker,Jan8,200814AdvancedComputingandInformationEngineeringRelationshipsBetweenDBSystemsandBDSystems•Then,SIGMOD09–AComparisonofApproachestoLarge-ScaleDataAnalysis,byDBresearchersofBrown,MIT,YaleandMicrosoft15AdvancedComputingandInformationEngineeringRelationshipsBetweenDBSystemsandBDSystems•Then,CACM2010–“MapReduceandParallelDBMSs:FriendsorFoes?”,byDBresearchers•“Neitherisgoodatwhattheotherdoeswell.Hence,thetwotechnologiesarecomplementary.”–“MapReduce:aflexibledataprocessingtool”,byJeffreyDean,SanjayGhemawat,GoogleInc.•MapReduceisahighlyeffectiveandefficienttoolforlarge-scalefault-tolerantdataanalysis.16AdvancedComputingandInformationEngineering•并行数据库和NoSQL类大数据处理技术(MR)的对比如下:17RelationshipsBetweenDBSystemsandBDSystemsParallelDBMSMapReduceSchemaSupportYXIndexingYYProgrammingModelSQL几乎任何熟悉的语言C/C++,Java,…OptimizationYXFlexibilityXYFaultToleranceXYScalabilityXYAdvancedComputingandInformationEngineeringOutline•大数据系统的发展背景•代表性的大数据系统•大数据系统的发展趋势•大数据系统的关键技术和技术挑战•BigData@Me•关于开展大数据科研@GZU18AdvancedComputingandInformationEngineeringBigData:海量数据驱动技术变革•海量数据驱动的应用研究:BigData–用户贡献内容的博客/社交网站、大型企业的业务数据和文档数据–数码设备和多媒体技术的发展图片/视频分享网站的流行–多种复杂数据类型:以图像,音频,视频,文档等非结构化数据居多–系统要求高:可扩展性好–上述应用的各类业务数据–海量数据管理和分析•数据仓库和OLAP19AdvancedComputingandInformationEngineeringBigData:新型应用驱动技术变革•海量数据驱动的应用研究:BigData–传统关系数据库的一些优势可能变成无用武之地•数据库的严格事务一致性要求:社交网络等Web2.0应用通常只要求最终事务一致性•数据库的写实时性和读实时性:Web2.0应用通常对读写实时性要求不高•多表关联的复杂SQL查询:互联网应用通常是单表主键查询–要存储管理图像、视频等多种复杂数据•研究非关系数据模型,如文档模型、Key-Value模型、列存储模型–大量用户对数据库进行高并发读写•社交网站可能同时有千万以上的在线用户进行数据读写•研究高性能的数据库读写技术20AdvancedComputingandInformationEngineeringBigData:新型应用驱动技术变革•海量数据驱动的应用研究:BigData–海量数据的存储•例如,Facebook拥有超过500亿张图片(2011)•研究高效的分布式数据存储技术:例如,Google的GFS和BigTable,Hadoop的HDFS和Hbase,Facebook的RCFile•要求良好的可扩展性和高可用性可扩展的集群架构–例如,Facebook每天新增超过850万张图片(2011)–研究如何让数据库系统从Scale-up到Scale-out–基于海量数据的高效并行处理模型•研究MapReduce技术及其扩展21AdvancedComputingandInformationEngineering代表性的大数据系统•海量数据驱动的应用研究:BigData–相关的海量数据管理解决方案•GFS+BigTable+MapReduce•Hadoop:HDFS+Hbase+MapReduce(YARN)•MicrosoftSQLAzure+DryadLinq•Cassandra•SimpleDB•MangoDB,Redis,Vertica,...•Dremel/Drill,Impala,PivotalHD,Stinger,Storm,S4,etc.–数据仓库技术:Hive(forHadoop),Greenplum,AsterData•与传统DW技术相比,引入了海量数据的分布式存储技术和并行处理技术•引入了MapReduce技术22AdvancedComputingandInformationEngineering代表性的大数据系统23AdvancedComputingandInformationEngineering代表性的大数据系统•大数据系统分类(按照分析处理的响应时间划分)–批处理•Hadoop,HBase,Hive,Cassandra,Pig,Greenplum,AsterData,etc.–交互式处理•Dremel,Drill,mdrill,Impala,PivotalHD,etc.–实时处理•Storm,S4,Kafka,Puma,etc.•除红色标记的项目外,其余均为开源系统,或提供具备基础功能的开源版24AdvancedComputingandInformationEngineering面向批处理的大数据系统•Hadoopeco-system25AdvancedComputingandInformationEngineering面向批处理的大数据系统26•HadoopSlavenodeClientTaskTracker(Map/Reduce)DataNode(HDFS)...computingstorageSlavenodeTaskTracker(Map/Reduce)DataNode(HDFS)computingstorageSlavenodeTaskTracker(Map/Reduce)DataNode(HDFS)computingstorageMasternodeJobTracker(Map/Reduce)NameNode(HDFS)JobsubmitingTaskallocatingAdvancedComputingandInformationEngineering面向批处理的大数据系统•MapReduce@Hadoop27AdvancedComputingandInformationEngineeringHadoop类系统的应用“现状”•Facebook–Hadoop集群超过100PB(2012.11)–HBase集群超过1000结点(2012.4)•淘宝–Hadoop集群超过9.3PB(2010.9,1000+节点,
本文标题:大数据系统——代表性技术和发展趋势(李晖)
链接地址:https://www.777doc.com/doc-1060409 .html