您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 基于SQLServer的大数据解决方案设计及实现32
基于SQLServer的大数据解决方案设计及实现孙巍高级项目经理CustomerAdvisoryTeam微软亚太研发集团云创新中心AboutCATCATisCustomerAdvisoryTeamfromR&Dtoconnectcustomerandproductgroup议程Agenda•大数据时代•你真的需要大数据吗?•关于大数据的一些事•微软有大数据方案吗?大数据到底意味着什么对一些人而言,“BigData”意味着使用NoSQL系统或者并行关系数据库系统01002003004005006007008009001000966848715619434364269227基于行业的数据量分布(inPetabytes,2009)1zettabyte?=1millionpetabytes=1trillionterabytes=1quadrilliongigabytes大数据的一些统计Sources:BigData:TheNextFrontierforInnovation,CompetitionandProductivity.USBureauofLaborStatistics|McKinsleyGlobalInstituteAnalysisPetabytes火星地球35ZB=如果使用DVD记录这些数据这些DVD可以累积到火星一般的路程可以做个类比你真的需要大数据吗?IT领域目前最热门的话题你真的需要大数据吗?•Yes,我们所有人都需要我如何基于天气和交通流量的模式优化我的车队?我们的品牌和产品的口碑如何?我如何更好地预测我的支出?但是。。。•构建OR使用•构建一个大数据平台或解决方案•使用大数据平台或解决方案•80/20•大数据是一项系统工程,不能仅仅是购买或使用某个产品就可以解决问题•大数据需要很多很多资源和技术•大数据离我们很远吗?关于大数据的一些事10希望你还没有晕管理大数据11保守派少壮派使用并行数据库系统eBay–10PBon256nodes使用NoSQL系统Facebook-20PBon2700nodesBing–150PBon40KnodesNOSQL为什么是这个名字...NOtoSQL这个不是在说SQL不应该再被使用或者说SQL已死NOTOnlySQL应该是重新认识一些问题找到更好的方法NOSQL?•更好的数据模型灵活性•将JSON作为一种数据模型•没有“schemafirst”的需求•从采集的数据中快速获得洞察力•宽松的一致性模型例如eventualconsistency•除了C/Java,在学校没学过什么其他的东西•讨厌例如SQL这类声明式的语言2类主流的NOSQL系统•键/值存储•例如:MongoDB,CouchBase,Cassandra,WindowsAzure,…•灵活的数据模型,例如JSON•通过键的Hash支持集群•基于键获取单一的记录•Hadoop•为存储和处理海量数据而设计的可扩展容错框架•典型的没有数据模型•记录存储在分布式文件系统WHY??REDUCETIMETOINSIGHTSQL:NoSQL:不需要清洗不需要ETL!不需要装载!当数据落地之后就可以分析RDBMS数据到达派生schema清洗数据转换数据装载数据SQLQueries123456数据到达应用程序12现实中存在的2个世界StructuredUnstructured&关系型数据库系统结构化数据已知schemaACIDTransactionsSQL强制一致性ETL需要长时间获得洞察力成熟并且稳定NoSQL系统非结构化或半结构化数据,没有schemaNoACIDNotransactionsNoSQL最终一致性NoETL快速获得洞察力Beta,alpha,0.x…微软的HADOOP策略•向Apache基金会提交变更•免费下载•AD与SystemsCenter的集成•Hadoop-as-a-service-on-Azure•VisualStudio集成•支持C#•性能和可扩展•高可用•易于使用关系型数据库还是Hadoop?(未来谁是主宰?)关系型数据库和Hadoop是基于不同的需求而设计出的系统21数据仓库一体机••••••WindowsServer2012StorageSpacesWindowsServer2012Hyper-VSQLServer2012xVelocity列存储PDW计算节点PDW控制节点A数据库。。。客户端请求。。。B数据库C数据库CustomerSalesCountrySupplier列存储技术提供新一代性能Products列存储技术提供强大性能•可更新的聚集列存储•数据以列形式存储•内存优化技术提供新一代性能•灵活可更新,同时满足批量导入或小量数据的加载更新需求高至50X性能提升高至15x压缩比例节省时间和成本实时数据仓库PDW数据仓库一体机VS.HADOOP数据仓库(HIVE)性能测试•硬件•基于9台HP服务器的集群,双路CPU,4核心,16GB内存,4块SAS数据磁盘•软件•SQLServerPDWVersion“next”o1台控制节点,8计算节点•WindowsHadoopVersion0.20.203,HiveVersion0.7.1o1命名节点,8数据节点•WindowsServer2008•基于TPC-H(SF800)的测试表•lineitem:612GB,48亿条记录•orders:140GB,12亿条记录PDW数据仓库一体机VS.HADOOP数据仓库(HIVE)Query1:SELECTcount(*)FROMlineitemQuery2:SELECTmax(l_quantity)FROMlineitemWHEREl_orderkey1000andl_orderkey100000GROUPBYl_linestatus010002000Query1Query2HivePDW秒©2012MicrosoftCorporation.Allrightsreserved.Microsoft,Windows,WindowsVistaandotherproductnamesareormayberegisteredtrademarksand/ortrademarksintheU.S.and/orothercountries.TheinformationhereinisforinformationalpurposesonlyandrepresentsthecurrentviewofMicrosoftCorporationasofthedateofthispresentation.BecauseMicrosoftmustrespondtochangingmarketconditions,itshouldnotbeinterpretedtobeacommitmentonthepartofMicrosoft,andMicrosoftcannotguaranteetheaccuracyofanyinformationprovidedafterthedateofthispresentation.MICROSOFTMAKESNOWARRANTIES,EXPRESS,IMPLIEDORSTATUTORY,ASTOTHEINFORMATIONINTHISPRESENTATION.数据仓库一体机系统Hadoop计算模型-具有交易的概念-面向交易的工作特性-强制ACID-具有任务的概念-面向任务的工作特性-没有并发控制数据模型-带有已知架构的结构化数据-读写模式-所有的数据都可以是任何格式-非结构化或半结构化-只读模式硬件配置-以一体机形式购买-通过廉价硬件自行组装容错-假设极少发生故障-没有查询级别的容错-假设经常发生故障-简单且高效的容错关键特性-效率,优化-可扩展性和灵活性27单纯的关系型数据库系统或单纯的Hadoop将不再是默认的选择28不直接装载非结构化数据提升可扩展性容错SQLServerPDW一体机基于Hadoop的系统DatabaseHDFS(Hadoop)SQLServer2012PDWPoweredbyPolyBasePOLYBASE:数据处理的突破性技术SQL统一查询,结构化和非结构化数据•查询关联Hadoop表和关系型数据库表•采用标准SQL语言•Select,FromWhere沿用现有SQL技能无需IT人员介入节省时间和成本分析多样的数据类型演示:关系型与半结构化的整合总结•大数据这个话题不仅仅只是Hadoop•未来并不是一个某一个架构或方案能够一统天下的格局,需要对大数据有一个清晰的认识•微软积极参与大数据的方案和设计欢迎莅临2013中国数据库技术大会
本文标题:基于SQLServer的大数据解决方案设计及实现32
链接地址:https://www.777doc.com/doc-25047 .html