您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据,商业智能的挑战
1大数据,商业智能的挑战搬运大数据的亨利2013.4.202目录1.大数据背景2.开源大数据生态圈和商用大数据生态圈3.开源前端生态圈和商用前端生态圈4.大数据BI系统的底层技术5.大数据BI系统的演变过程6.建设大数据BI系统的思考3大数据背景大数据的4V1.数据量大(Volume)2.速度快(Velocity)3.类型多(Variety)4.价值密度低(Value)4大数据背景更多的数据?谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监PeterNorvig的话就是:更多的数据胜过更好的算法5开源大数据生态圈诞生:谷歌大数据领袖谷歌,于2003年起发布一系列论文:1.《TheGoogleFileSystem》2.《MapReduce:SimplifiedDataProcessingonLargeClusters》3.《Bigtable:ADistributedStorageSystemforStructuredData》战火被点燃,从此进入大数据时代6开源大数据生态圈诞生:开源大数据生态圈1.HadoopHDFS、HadoopMapReduce,HBase、Hive渐次诞生,早期Hadoop生态圈逐步形成2.Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户7开源大数据生态圈HadoopMapReduce不适合实时计算?1.任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务2.基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行3.类似的JVM进程启停有5、6次之多4.ReduceTask只能在所有MapTask完成之后才能启动8开源大数据生态圈中期:谷歌.为了高扩展性,我们容忍了高延迟.2010年,谷歌又发布了论文:《Dremel:InteractiveAnalysisofWebScaleDatasets》.论文撰写于2006年.平静再次被打破9开源大数据生态圈中期:开源在HadoopMapReduce框架之外,衍生出了一批低延迟的大数据分析项目:ClouderaImpala,MapRDrill,HBaseCoprocessor,Spark,etc.Caution!10开源大数据生态圈后来:谷歌NoSQL引领着IT界时尚圈,几乎家喻户晓;低延迟的大数据分析项目在开源界刚出现没多久,谷歌又烧了第三把火。这次它发表的两篇论文是:1.《F1-TheFault-TolerantDistributedRDBMSSupportingGoogle'sAdBusiness》2.《Spanner:Google'sGlobally-DistributedDatabase》.多年以来,很多人以NoSQL为时尚。到后来才发现,原来谷歌早就在用SQL语句自如地访问自己的MPP数据库:F1和Spanner了.NoSQL定义曾经有很多版本,谷歌的最新定义是:NoTimetoSupportSQL11开源大数据生态圈后来:开源界整体失声这里的黎明静悄悄...12开源大数据生态圈总结:开源大数据生态圈落后,努力!基本套路:1.2003年,谷歌点燃了大数据战火2.2010年,谷歌又给大数据放了一把火3.2012年,谷歌再给大数据放了第三把火13开源大数据生态圈几个另类:MySQL,MonetDB,PostgreSQL想过打造属于自己的MPP数据仓库吗?14商用大数据生态圈一体机数据库/数据仓库:国外IBMPureData(Netezza),OracleExadata,SAPHana等等国内Scale-out数据仓库:国外TeradataAsterData,EMCGreenPlum,HPVertica等等国内GBase等等国外QlikView、Tableau等等国内Scale-up数据集市:Scale-out数据集市:国外StyleIntelligence等等国内YonghongDataMart等等15开源前端生态圈开源:统计分析和数据挖掘R,RHadoop,Mahout等等展现分析JasperSoft,Pentaho,Openi,Birt等等16商用前端生态圈统计分析和数据挖掘:国外SAS,SPSS等等国内展现分析:国外Cognos,BO,Microsoft,Oracle,Microstrategy等等QlikView,Tableau,Spotfire,StyleIntelligence等等国内SmartBI,YonghongZ-Suite,CellSoft等等17大数据BI系统的底层技术必要的底层技术1.分布式计算2.分布式通信3.内存计算4.列存储5.库内计算18大数据BI系统的底层技术分布式计算1.OfflineMPP2.OnlineMPPDremel2.Online1.OfflineMapRedIRedIIGroup/AggrQueryMapMapRedIMapCaution!19大数据BI系统的底层技术分布式通信1.Performance2.Load3.VarianceAverage(a)是相同值5,但是Variance(a)差距很大20大数据BI系统的底层技术内存计算1.AllData2.HotDataDataCodeDataDataCode1.Initializing2.ComputingDataCode1.Initializing2.ComputingDataDataCodeCaution!21大数据BI系统的底层技术列存储1.Compact(RunLength,Dict,Range,LZW,Delta,etc.)2.PartialI/O3.BlockCopySelectOrder.SalesFromOrder1.OnlyLoad'Sales'2.BlockCopy'Sales'22大数据BI系统的底层技术库内计算-条件查询条件能否压下去?BRANCH23大数据BI系统的底层技术库内计算-聚集查询Sum1.Map:Sum2.Reduce:Sum_SumCount1.Map:Count2.Reduce:Sum_CountVariance1.Map:Count,Sum,SumSQ2.Reduce:Sum_Count,Sum_Sum,Sum_SumSQ0.Formula:(n*Σx2–(Σx)2)/(n*(n–1))Covariance1.Map:Sum_x,Sum_y,SumWT_xy,Count_x2.Reduce:Sum_Sum_x,Sum_Sum_y,Sum_SumWT_xy,Sum_Count0.Formula:1/n*Σxy-μx*μy24大数据BI系统的底层技术库内计算子查询子查询怎么转化为MapReduce?有一些论文专门研究子查询的改写。例如:WonKim:《OnOptimizinganSQL-likeNestedQuery》例如:C´esarA.GalindoLegaria&MilindM.Joshi:《OrthogonalOptimizationofSubqueriesandAggregation》子查询大致可以分为以下几类:1.Type-A,2.Type-N,3.Type-J,4.Type-JA例如,Type-J子查询可改写为Join(关联):Selectt1.col1fromt1wheret1.col2in(selectt2.col2fromt2wheret1.jcol=t2.jcol)1.Mergethetablesinthesubquerytothe‘from’clauseofthemainquery.2.Addsubqueryconditions(includingjoins)tothemainquery’s‘where’clause.TheconditionsshouldbecombinedusinganANDoperator.3.ReplaceRi.Ciop(selectRj.Cj)withajoin:Ri.CinopRj.Cj,andANDitwiththeentirecondition.IfopisIN,theconditionisRi.Ci=Rj.CjIfopisNOTIN,theconditionisNOT(Ri.Ci=Rj.Cj)25大数据BI系统的演变过程第一阶段1.OLAPonOLTP第二阶段1.MaterializedView2.Stage,ODS,DWD,DWA3.ROLAP,MOLAP,HOLAP第三阶段1.开源社区2.一体机,MPPDW,MPPDM这也是几乎每个BI研发人员的进化之旅,直到...26建设大数据BI系统的思考大数据BI系统并不仅仅是数据展现1.要能够掌握情况、分析问题、找到答案2.前端系统的交互和分析能力要强大:过滤(Filter)、钻取(Drill)、刷取(Brush)、缩放(Zoom)、关联(Associate)、变换(Transform)、动态计算(DynamicCalculation)、链接(Link)3.数据挖掘、预测将变成重要的需求中美日BI系统建设目的27建设大数据BI系统的思考性能—最重要的功能?1.性能需要衡量交付一个BI应用的整体周期及难易程度2.谨慎采用Cache、Preaggregation等不合乎直觉的技术:优化效果不稳定;难以管理,可能失去控制3.性能最好不以牺牲粒度(Granularity)达到:粒度越细越好4.海量数据,实时处理28建设大数据BI系统的思考建设方向1.业务驱动优于数据驱动2.自助式(Self-Service)的大数据BI系统29建设大数据BI系统的思考建设原则1.敏捷开发原则(ADP):AgileDevelopmentPrinciple.好系统不是一蹴而就,先切入进去再持续迭代2.开闭原则(OCP):OpentoExtension,ClosetoModification.减少BI应用对数据层的污染3.依赖倒置原则(DIP):DependencyInversionPrinciple.合理架构,降低数据与应用之间的依赖度4.里氏替换原则(LSP):LiskovSubstitutionPrinciple.开放标准,使各模块的替换性好30建设大数据BI系统的思考产品选型1.正确面对开源和商业产品:开源是一种商业模式,没有免费的午餐2.正确面对国际和国内产品:在TCO、Service、Customization等方面仔细权衡3.大数据BI系统的TCO并不一定就高:曾经观察到一些项目以十万左右的开销支持了1TB数据量的实时分析(包括软硬件)4.选择最适合自己的、服务最好的产品和技术Scale-outScale-upx86ServerNon-x86Server31建设大数据BI系统的思考常见架构+PBTB一体机MPPDWMPPDM传统的BI系统架构并非一无是处,同样值得我们学习借鉴+32谢谢!欢迎莅临2013中国数据库技术大会搬运大数据的亨利henryhe.bi@gmail.com
本文标题:大数据,商业智能的挑战
链接地址:https://www.777doc.com/doc-26244 .html