您好,欢迎访问三七文档
基于GreenplumHadoop分布式平台的大数据解决方案GreenplumHadoop讲师:迪伦(北风网版权所有)分布式数据库存储及查询处理分布存储表分布的策略-并行计算的基础查询规划与分发SQL查询处理机制并行查询计划课程目标salecnintegervnintegerpnintegerdtdateqtyintegerprcfloatcustomercnintegercnametextvendorvnintegervnametextloctextproductpnintegerpnametextmasterglobalcatalogsalepart3segment3customerpart3productpart3vendorpart3salepart1segment1customerpart1productpart1vendorpart1salepart2segment2customerpart2productpart2vendorpart2查询命令的执行分布存储Hash分布CREATETABLE…DISTRIBUTEDBY(column[,…])同样数值的内容被分配到同一个Segment上循环分布CREATETABLE…DISTRIBUTEDRANDOMLY具有同样数值的行内容并不一定在同一个Segment上S1S2S3hashassignAACCBBinputrowssegmentsmasterABCCABACACS1S2S3assignnextinputrowssegmentsmasterABCCABACCAACCBAB表分布的策略-并行计算的基础表分布的策略-并行计算的基础MasterqueryplanClientSegmentsSegmentsSegmentsSegments查询命令的执行查询规划与分发查询命令的执行查询规划与分发mastersegment1segment2QDprocessslice3QEprocessslice1QEprocessslice2QEprocessslice1QEprocessslice2gangganggangSQL查询处理机制SLICE1SLICE2SLICE3SELECTcustomer,amountFROMsalesJOINcustomerUSING(cust_id)WHEREdate=04302008;TableScanRedistributeMotionTableScanHashHashJoinGatherMotionTableScanRedistributeMotionTableScanHashHashJoinGatherMotionSLICE3SLICE1SLICE2SEGMENT2SEGMENT1并行查询计划欢迎访问我们的官方网站
本文标题:hadoop项目实例教程-hadoop大数据处理06.分布式数据库存储及查询处理
链接地址:https://www.777doc.com/doc-7534777 .html