您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 阿里大数据应用平台41
阿里大数据应用平台刘昌钰@淘铁燕2013-11-29Agenda•自我介绍•阿里数据平台•大数据应用平台•挑战与未来自我介绍–刘昌钰•阿里巴巴数据平台架构师•擅长大系统架构设计–腾讯TBOSS支付结算平台–财付通业务平台–腾讯海量数仓TDW1.0–淘宝网交易平台–淘数据平台–阿里大数据应用平台•@淘铁燕3Agenda•自我介绍•阿里数据平台•大数据应用平台•挑战与未来使命:数据给力商业•数据平台:数据+云计算•围绕数据的“存通用”,大规模降低数据使用门槛•越关联越有价值,越用越有价值5大数据业务6大数据业务7数据业务计算平台云梯1Hadoop云梯2ODPS飞天GalaxyHbaseOceanBaseGaruda大数据业务8数据业务计算平台云梯1Hadoop云梯2ODPS飞天GalaxyHbaseOceanBaseGaruda应用平台数据服务数据同步数据开发调度生产元数据数据质量TCIF地理服务ODSAgenda•自我介绍•阿里数据平台•大数据应用平台•挑战与未来大数据应用平台•数据导入•数据开发•数据生产•数据回流•元数据中心•数据质量中心数据导入应用数据同步中心结构化数据实时流式同步非结构化数据实时流式同步结构化数据离线同步流式数据计算框架离线数据计算框架实时计算MySQLClusterHBase中间层搜索引擎非结构化数据源应用服务器分布式资源池数据中心结构化数据源对内数据支撑:商业智能与决策支持产品运营分析系统运维对外数据产品:数据披露数据产品中间件服务工作流调度数据同步系统结构12云梯1云梯2stormgalaxy日志BI报表业务监控数据源采集TT云计算实时计算数据产品量子统计数据魔方月光宝盒生意参谋阿拉丁阿里金融brokerbrokerbrokerbrokerbrokerhbasebrokerbrokerbrokerbrokerbrokerhbasehbasezookeeperroutermanagermonitorTailfiledfswriter日志日志日志TailfileTailfileTailfile日志实时采集TimeTunelTT日志实时采集日采集40T峰值1GB/S结构化数据导入:DataX•统一数据交换协议•插件化开发Mysql云梯1Hadoop云梯2ODPS飞天Oracle15云梯1云梯2stormgalaxy日志mysqloracleoceanbaseBI报表业务监控数据源采集TT云计算实时计算数据产品量子统计数据魔方月光宝盒生意参谋阿拉丁阿里金融brokerbrokerbrokerbrokerbrokerhbasebrokerbrokerbrokerbrokerbrokerhbasehbasezookeeperroutermanagermonitorTailfileDbsyncdfswriter大表的实时增量拉取大数据应用平台•数据导入•数据开发•数据生产•数据回流•元数据中心•数据质量中心数据开发开发环境隔离18数据开发云集成运维环境DEVsandbox集成开发环境(WEBSDK)元数据中心仸务监控数据质量监控生命周期管理数据同步设计器/编辑器仸务调度系统项目管理计算存储计算网关同步网关QAsandbox数据同步仸务调度系统计算存储计算网关同步网关PRODUCTsandbox数据同步仸务调度系统计算存储计算网关同步网关发布管理运行调试环境测试环境自动化测试持续集成代码仓库部署接口测试接口运维接口浏览器图例物理数据生产(调度)多实例多周期调度20ABCEDFGHIJ日常周期调度实例:2013-11-28•基于数据血缘的DAG调度•日调度、小时调度、月调度调度跨天依赖21ABCEDFGHIJABCEDFGHIJ日常周期调度实例:2013-11-28日常周期调度实例:2013-11-27多实例冲突检测跨天依赖Mosad生产护航22数据开发平台架构代码管理运行资源管理日志管理执行插件队列调度DAG引擎IDEDAG管理状态管理周边系统监控告警运维平台生命周期管理元数据冷数据中心执行引擎资源管理引擎开发平台调度引擎发布平台代码管理平台同步中心调度服务执行服务离线计算集群云梯一ODPS流式计算集群Galaxy实时计算集群Garuda第三方系统用户用户权限中心数据地图数据生产规模•调度仸务数:数万•总job数:数十万•总执行总时间:万小时•逻辑存储:百PB日增百TB24大数据应用平台•数据导入•数据开发•数据生产•数据回流•元数据中心•数据质量中心DataX异构数据同步同步总线MysqlOracleODPSHttpFileOTSHiveTairHBaseOceanBaseMysqlServerOracleServerHttpServerHiveServerODPSServerTairServerHbaseServerOBServerOTSServerDiskOSSServerSqlServer•仸意数据源互通•日传输量在20TB•统一数据交换协议•插件化开发挑战-支持海量数据同步DataX分布式SMSMSSSSSSSMSMasterSlave启动子仸务数据流向数据源数据源挑战–海量数据回流生产系统离线同步中心海量数据partitionpartitionpartitionpartitionpartitionpartitionpartition存储Server存储Server存储Server存储Server存储Server存储Server存储Server路由层DataXDataXDataXDataXDataXDataXDataX预sharding直达存储ODPSOTS80亿条记录2个小时传输完毕大数据应用平台•数据导入•数据开发•数据生产•数据回流•元数据中心•数据质量中心元数据中心30数据系统元数据中心事件中心元数据资源库元数据服务元数据驱动ODPS驱动Hive驱动......图搜索元数据及血缘关系开放APIODPS云梯1......同步中心DataXTTDTHBase,OTS...事件订阅/通知业务线(商业智能、小微金融等)事件订阅/通知元数据中心iSearchGarudaNeo4jHadoop数据特征数据字典iDB云梯1odpsalipayhadoopGarudaOTSHBasemyfoxOceanBase日志系统、包、数据表、字段、分区等数据量、访问热度、标签及用户行为等血缘表级、字段级、分区级hive脚本odps脚本DataXDTTaskTTDBSync数据地图Dashboard全文检索指标体系,统计分析,监控预警血缘追溯、影响分析等ServiceAPIApp质量安全生产计量名称、标签、分类等元数据中心应用数据地图数据地图大数据应用平台•数据导入•数据开发•数据生产•数据回流•元数据中心•数据质量中心数据质量中心DQCSDKDQCService样本采集DQCWebApp云梯1云梯2实时(流式)天网天枢监控告警中心元数据中心USER(用户)DQCCENTERDQC流程用户DQCSERVICE调度1.规则配置2.SDK触发检验请求样本采集3.样本采集4.返回检验结果5.调度根据检验结果决定是否阻断子任务云梯1|云梯2|流式Agenda•自我介绍•阿里数据平台•大数据应用平台•挑战与未来挑战与未来39•稳定性•效率•对外开放•数据质量•可管理性•易用门槛例子:同步中心•DataX迁移Dbsync:效率•对接MC和iDB:变更透明稳定性•同步接入DQC:数据质量•服务化:接入门槛40最复杂的大数据应用场景等你来挑战自己@淘铁燕tieyan.lcy@taobao.comThanks!
本文标题:阿里大数据应用平台41
链接地址:https://www.777doc.com/doc-30527 .html