您好,欢迎访问三七文档
百度大数据即席查询服务百度开放云即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步计划即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步计划大数据即席查询(Ad-HocQuery)平台PAAS:开箱即用,用户无需关心机器/集群的运维/细节高性能/规模:裸机/优化/最大PB量级以上低成本:多租户共享集群/按使用付费BigSQL定位数据格式:半结构化(CSV/JSON/Parquet/Protobuf等)使用接口:易用/多样化(RestAPI/Console/CLI/JDBC)语法集:兼容开源SparkSQL/HQL按使用付费:按(Query复杂度+扫描数据量)计费多用户协同:灵活的权限管理BigSQL特点•面向“人”的查询交互式(Interactive):查询具有较高时效性即席(Ad-Hoc):查询模式相对不固定数据没有(时间/成本)做过多预处理Ad-HocQueryAd-HocQueryOLAP数据密度弱(半)结构化高度结构化加工过程粗(浅)加工深度加工查询模式相对随机相对固定即席查询vs多维分析MPP/ImpalaSQLonHadoop/SparkSQL扩展性1000台以内/PB以下千台以上/PB以上查询延迟毫秒~秒秒~分钟架构复杂性中等复杂容错无有调度策略Gang/Transaction分批启停开销小/常驻进程大/现启动与存储结合程度紧密松散MPP/Shared-NothingBigSQLServiceWebServerTools/SDKBOSBigSQL示意图UserQueryUserQueryStreamingBatch即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步计划RESTAPI接入层(HttpServer)SessionManagerSparkContextSessionWorkerQueryQuerySchedulerCompute&StorageClusterSparkContextSessionWorkerQueryQuerySparkContextSessionWorkerQueryQuerySDKCLIToolsMetaStoreIAM账单监控StateStoreConsoleBigSQL整体架构易用性:各种形式的API可用性:关键节点容错安全:租户认证和鉴权、Quota限制账单监控BigSQL整体架构:接入层计算引擎(Spark)SessionWorkerSessionWorkerSessionWorkerSessionWorkerAPPExecutorExecutorAPPExecutorExecutorExecutor分布式缓存(CacheManager)存储引擎(DFS/ColumnStorage)APPExecutorAPPExecutorExecutorBigSQL整体架构:引擎层接入层即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步计划高性能ShuffleBigSQL关键技术(一)高性能ShuffleBigSQL关键技术(一)BigSQL关键技术(一)数据缓存层BigSQL关键技术(二)UserUser接入层计算引擎(Spark)CacheManagerCache存储引擎(HDFS+Parquet)数据缓存策略l按需缓存Query运行时触发Cachemiss,异步load到缓存l数据预取周期性Load相关Table/Partition到缓存根据过去Query信息统计热点数据,提前Load到缓存典型案例:跨地域查询加速(提升至少一个数量级)BigSQL关键技术(二)优化执行l智能参数优化利用Combine类InputFormat,减少MapTask数根据上游输出,自动优化ReducePartition数目l调度优化评估数据量,自动复用Application或者启用新的Applicationl近似查询长尾任务自动忽略,保证时效性BigSQL关键技术(三)资源隔离/安全l基于Cgroup/Namespace的Container隔离CPU/Memory/FSContainer本身的加固网络的互通与隔离lJVM沙箱层的多种安全策略l计算/存储框架层的安全认证和加密传输BigSQL关键技术(四)即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步计划在Baidu内部的应用凤巢广告数据分析l漏斗分析分析广告被过滤的原因,各个维度特征等l系统优化和问题定位分析系统业务日志,发现可优化的指标和潜在问题日均扫描数据量:xxPB即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步计划l持续投入技术研发更智能的数据缓存层:细粒度/物化视图选取实时更新向量执行:提高CPUcache命中率CBO:Cost-basedOptimizerBigSQL后续规划l构建通用大数据处理平台日志收集服务数据变形/ETL服务报表/多维分析即席查询服务批处理服务预测服务BigSQL后续规划DWTransformHDFSCollectOLAPStorageTransform特征库Transform多维分析ETL报表LogService即席查询批处理服务预测服务通用大数据处理平台
本文标题:大数据即席查询技术
链接地址:https://www.777doc.com/doc-26376 .html