大数据,商业智能的挑战

1大数据，商业智能的挑战搬运大数据的亨利2013.4.202目录1.大数据背景2.开源大数据生态圈和商用大数据生态圈3.开源前端生态圈和商用前端生态圈4.大数据BI系统的底层技术5.大数据BI系统的演变过程6.建设大数据BI系统的思考3大数据背景大数据的4V1.数据量大(Volume)2.速度快(Velocity)3.类型多(Variety)4.价值密度低(Value)4大数据背景更多的数据？谷歌自始至终都认为数据是越多越好，用谷歌产品研发总监PeterNorvig的话就是：更多的数据胜过更好的算法5开源大数据生态圈诞生：谷歌大数据领袖谷歌，于2003年起发布一系列论文:1.《TheGoogleFileSystem》2.《MapReduce:SimplifiedDataProcessingonLargeClusters》3.《Bigtable:ADistributedStorageSystemforStructuredData》战火被点燃，从此进入大数据时代6开源大数据生态圈诞生：开源大数据生态圈1.HadoopHDFS、HadoopMapReduce,HBase、Hive渐次诞生，早期Hadoop生态圈逐步形成2.Hypertable是另类。它存在于Hadoop生态圈之外，但也曾经有一些用户7开源大数据生态圈HadoopMapReduce不适合实时计算？1.任务分配Server不会将信息Push到计算Node，而是让计算Node通过心跳去Pull任务2.基于框架的通用性，MapReduce代码也会在HDFS中传送，在各计算Node展开，再通过启动新JVM进程装载并运行3.类似的JVM进程启停有5、6次之多4.ReduceTask只能在所有MapTask完成之后才能启动8开源大数据生态圈中期：谷歌.为了高扩展性，我们容忍了高延迟.2010年，谷歌又发布了论文:《Dremel:InteractiveAnalysisofWebScaleDatasets》.论文撰写于2006年.平静再次被打破9开源大数据生态圈中期：开源在HadoopMapReduce框架之外，衍生出了一批低延迟的大数据分析项目：ClouderaImpala,MapRDrill,HBaseCoprocessor,Spark,etc.Caution!10开源大数据生态圈后来：谷歌NoSQL引领着IT界时尚圈，几乎家喻户晓；低延迟的大数据分析项目在开源界刚出现没多久，谷歌又烧了第三把火。这次它发表的两篇论文是：1.《F1-TheFault-TolerantDistributedRDBMSSupportingGoogle'sAdBusiness》2.《Spanner:Google'sGlobally-DistributedDatabase》.多年以来，很多人以NoSQL为时尚。到后来才发现，原来谷歌早就在用SQL语句自如地访问自己的MPP数据库：F1和Spanner了.NoSQL定义曾经有很多版本，谷歌的最新定义是：NoTimetoSupportSQL11开源大数据生态圈后来：开源界整体失声这里的黎明静悄悄...12开源大数据生态圈总结：开源大数据生态圈落后，努力！基本套路：1.2003年，谷歌点燃了大数据战火2.2010年，谷歌又给大数据放了一把火3.2012年，谷歌再给大数据放了第三把火13开源大数据生态圈几个另类：MySQL,MonetDB,PostgreSQL想过打造属于自己的MPP数据仓库吗？14商用大数据生态圈一体机数据库/数据仓库:国外IBMPureData(Netezza),OracleExadata,SAPHana等等国内Scale-out数据仓库:国外TeradataAsterData,EMCGreenPlum,HPVertica等等国内GBase等等国外QlikView、Tableau等等国内Scale-up数据集市:Scale-out数据集市:国外StyleIntelligence等等国内YonghongDataMart等等15开源前端生态圈开源:统计分析和数据挖掘R,RHadoop,Mahout等等展现分析JasperSoft，Pentaho,Openi,Birt等等16商用前端生态圈统计分析和数据挖掘:国外SAS，SPSS等等国内展现分析:国外Cognos,BO,Microsoft,Oracle,Microstrategy等等QlikView,Tableau,Spotfire,StyleIntelligence等等国内SmartBI,YonghongZ-Suite,CellSoft等等17大数据BI系统的底层技术必要的底层技术1.分布式计算2.分布式通信3.内存计算4.列存储5.库内计算18大数据BI系统的底层技术分布式计算1.OfflineMPP2.OnlineMPPDremel2.Online1.OfflineMapRedIRedIIGroup/AggrQueryMapMapRedIMapCaution!19大数据BI系统的底层技术分布式通信1.Performance2.Load3.VarianceAverage(a)是相同值5，但是Variance(a)差距很大20大数据BI系统的底层技术内存计算1.AllData2.HotDataDataCodeDataDataCode1.Initializing2.ComputingDataCode1.Initializing2.ComputingDataDataCodeCaution!21大数据BI系统的底层技术列存储1.Compact(RunLength,Dict,Range,LZW，Delta,etc.)2.PartialI/O3.BlockCopySelectOrder.SalesFromOrder1.OnlyLoad'Sales'2.BlockCopy'Sales'22大数据BI系统的底层技术库内计算-条件查询条件能否压下去？BRANCH23大数据BI系统的底层技术库内计算-聚集查询Sum1.Map:Sum2.Reduce:Sum_SumCount1.Map:Count2.Reduce:Sum_CountVariance1.Map:Count,Sum,SumSQ2.Reduce:Sum_Count,Sum_Sum,Sum_SumSQ0.Formula:(n*Σx2–(Σx)2)/(n*(n–1))Covariance1.Map:Sum_x,Sum_y,SumWT_xy,Count_x2.Reduce:Sum_Sum_x,Sum_Sum_y,Sum_SumWT_xy,Sum_Count0.Formula:1/n*Σxy-μx*μy24大数据BI系统的底层技术库内计算子查询子查询怎么转化为MapReduce？有一些论文专门研究子查询的改写。例如：WonKim:《OnOptimizinganSQL-likeNestedQuery》例如：C´esarA.GalindoLegaria&MilindM.Joshi:《OrthogonalOptimizationofSubqueriesandAggregation》子查询大致可以分为以下几类：1.Type-A,2.Type-N,3.Type-J,4.Type-JA例如，Type-J子查询可改写为Join(关联):Selectt1.col1fromt1wheret1.col2in(selectt2.col2fromt2wheret1.jcol=t2.jcol)1.Mergethetablesinthesubquerytothe‘from’clauseofthemainquery.2.Addsubqueryconditions(includingjoins)tothemainquery’s‘where’clause.TheconditionsshouldbecombinedusinganANDoperator.3.ReplaceRi.Ciop(selectRj.Cj)withajoin:Ri.CinopRj.Cj,andANDitwiththeentirecondition.IfopisIN,theconditionisRi.Ci=Rj.CjIfopisNOTIN,theconditionisNOT(Ri.Ci=Rj.Cj)25大数据BI系统的演变过程第一阶段1.OLAPonOLTP第二阶段1.MaterializedView2.Stage,ODS,DWD,DWA3.ROLAP,MOLAP,HOLAP第三阶段1.开源社区2.一体机,MPPDW,MPPDM这也是几乎每个BI研发人员的进化之旅，直到...26建设大数据BI系统的思考大数据BI系统并不仅仅是数据展现1.要能够掌握情况、分析问题、找到答案2.前端系统的交互和分析能力要强大：过滤(Filter)、钻取(Drill)、刷取(Brush)、缩放(Zoom)、关联(Associate)、变换(Transform)、动态计算（DynamicCalculation）、链接(Link)3.数据挖掘、预测将变成重要的需求中美日BI系统建设目的27建设大数据BI系统的思考性能—最重要的功能？1.性能需要衡量交付一个BI应用的整体周期及难易程度2.谨慎采用Cache、Preaggregation等不合乎直觉的技术：优化效果不稳定；难以管理，可能失去控制3.性能最好不以牺牲粒度(Granularity)达到：粒度越细越好4.海量数据，实时处理28建设大数据BI系统的思考建设方向1.业务驱动优于数据驱动2.自助式(Self-Service)的大数据BI系统29建设大数据BI系统的思考建设原则1.敏捷开发原则（ADP）：AgileDevelopmentPrinciple.好系统不是一蹴而就，先切入进去再持续迭代2.开闭原则（OCP）：OpentoExtension,ClosetoModification.减少BI应用对数据层的污染3.依赖倒置原则（DIP）：DependencyInversionPrinciple.合理架构，降低数据与应用之间的依赖度4.里氏替换原则（LSP）：LiskovSubstitutionPrinciple.开放标准，使各模块的替换性好30建设大数据BI系统的思考产品选型1.正确面对开源和商业产品：开源是一种商业模式，没有免费的午餐2.正确面对国际和国内产品：在TCO、Service、Customization等方面仔细权衡3.大数据BI系统的TCO并不一定就高：曾经观察到一些项目以十万左右的开销支持了1TB数据量的实时分析(包括软硬件)4.选择最适合自己的、服务最好的产品和技术Scale-outScale-upx86ServerNon-x86Server31建设大数据BI系统的思考常见架构+PBTB一体机MPPDWMPPDM传统的BI系统架构并非一无是处，同样值得我们学习借鉴+32谢谢！欢迎莅临2013中国数据库技术大会搬运大数据的亨利henryhe.bi@gmail.com

大数据,商业智能的挑战

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

女装品牌策划方案

【网络通信】3g无线基础知识

APQP&CP重点解析

采购管理制度大全

四级《物流员》分章节练习及答案

某市中小学校运动场塑胶工程招标文件

工作小秘书（XXXX年）

关于组织开展XXXX年全市专业技术资格申报评审工作的通

工作优势与不足分析

七、石油工业标准体系表

相关文档

相关搜索

大数据,商业智能的挑战

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

女装品牌策划方案

【网络通信】3g无线基础知识

APQP&amp;CP重点解析

采购管理制度大全

四级《物流员》分章节练习及答案

某市中小学校运动场塑胶工程招标文件

工作小秘书（XXXX年）

关于组织开展XXXX年全市专业技术资格申报评审工作的通

工作优势与不足分析

七、石油工业标准体系表

相关文档

相关搜索

APQP&CP重点解析