您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 高并发环境下的数据产品架构设计
大数据产品架构设计张茂森Weibo:@maosenEmail:xiaosen.zhang@gmail.comAgenda•什么是大数据产品•数据产品的业务场景•技术架构–高性能网站–应用计算–云计算•走过的一些弯路•Q&A大数据时代的新命题大数据时代的新命题•大规模数据处理能力更易获得–众多的海量数据处理工具、平台–云计算服务大数据时代的新命题•大规模数据处理能力更易获得–众多的海量数据处理工具、平台–云计算服务大数据时代的新命题•大规模数据处理能力更易获得–众多的海量数据处理工具、平台–云计算服务•用户数据在爆炸–行为数据–UGC数据大数据时代的新命题•大规模数据处理能力更易获得–众多的海量数据处理工具、平台–云计算服务•用户数据在爆炸–行为数据–UGC数据大数据时代的新命题•大规模数据处理能力更易获得–众多的海量数据处理工具、平台–云计算服务•用户数据在爆炸–行为数据–UGC数据•数据间的关联性前所未有复杂–社交网络–购买关系–各个业务系统IT化整合大数据时代的新命题•大规模数据处理能力更易获得–众多的海量数据处理工具、平台–云计算服务•用户数据在爆炸–行为数据–UGC数据•数据间的关联性前所未有复杂–社交网络–购买关系–各个业务系统IT化整合大数据时代的新命题•大规模数据处理能力更易获得–众多的海量数据处理工具、平台–云计算服务•用户数据在爆炸–行为数据–UGC数据•数据间的关联性前所未有复杂–社交网络–购买关系–各个业务系统IT化整合•数字化营销大行其道–RTB+DSP+DMP–SEO+SEM大数据时代的新命题•大规模数据处理能力更易获得–众多的海量数据处理工具、平台–云计算服务•用户数据在爆炸–行为数据–UGC数据•数据间的关联性前所未有复杂–社交网络–购买关系–各个业务系统IT化整合•数字化营销大行其道–RTB+DSP+DMP–SEO+SEM大数据产品•以海量数据为基础•以数据计算为核心•对N个数据源进行整合•通过复杂关联获取价值,面临维度爆炸的挑战•通过分析界面、报表操作等完成人机交互•不其它在线生产系统进行数据对接数据产品业务场景•产品场景–百万级用户–千万级页面访问–亿级数据接口请求–PB级后台数据处理吞吐•软实时计算的需求–数据从产生到完成结果计算延迟要求到秒级•数据仸务依赖关系复杂数据中间层历叱数据查询&存储层实时计算&查询引擎系统实时效果分析平台推荐&挖掘系统实时数据源离线数据源报表类产品UX数据展现计算推荐类产品UX分析类产品UX公用分布式计算平台与用分布式计算平台数据IDE工具仸务管理&调度系统元数据分析&优化系统流计算框架即时计算框架实时数据收集总线用户端应用计算云计算服务整体架构外部系统数据中间层历叱数据查询&存储层实时计算&查询引擎系统实时效果分析平台推荐&挖掘系统实时数据源离线数据源报表类产品UX数据展现计算推荐类产品UX分析类产品UX公用分布式计算平台与用分布式计算平台数据IDE工具仸务管理&调度系统元数据分析&优化系统流计算框架即时计算框架实时数据收集总线用户端应用计算云计算服务Javascript新一代的编程语言整体架构外部系统数据中间层历叱数据查询&存储层实时计算&查询引擎系统实时效果分析平台推荐&挖掘系统实时数据源离线数据源报表类产品UX数据展现计算推荐类产品UX分析类产品UX公用分布式计算平台与用分布式计算平台数据IDE工具仸务管理&调度系统元数据分析&优化系统流计算框架即时计算框架实时数据收集总线用户端应用计算云计算服务数据API:基于非阻塞IO模型&轻量级线程式编程Javascript新一代的编程语言整体架构外部系统数据中间层历叱数据查询&存储层实时计算&查询引擎系统实时效果分析平台推荐&挖掘系统实时数据源离线数据源报表类产品UX数据展现计算推荐类产品UX分析类产品UX公用分布式计算平台与用分布式计算平台数据IDE工具仸务管理&调度系统元数据分析&优化系统流计算框架即时计算框架实时数据收集总线用户端应用计算云计算服务数据API:基于非阻塞IO模型&轻量级线程式编程Javascript新一代的编程语言整体架构ShardingorCluster外部系统数据中间层历叱数据查询&存储层实时计算&查询引擎系统实时效果分析平台推荐&挖掘系统实时数据源离线数据源报表类产品UX数据展现计算推荐类产品UX分析类产品UX公用分布式计算平台与用分布式计算平台数据IDE工具仸务管理&调度系统元数据分析&优化系统流计算框架即时计算框架实时数据收集总线用户端应用计算云计算服务数据API:基于非阻塞IO模型&轻量级线程式编程Javascript新一代的编程语言分布式计算&存储&K/V服务整体架构ShardingorCluster外部系统数据中间层历叱数据查询&存储层实时计算&查询引擎系统实时效果分析平台推荐&挖掘系统实时数据源离线数据源报表类产品UX数据展现计算推荐类产品UX分析类产品UX公用分布式计算平台与用分布式计算平台数据IDE工具仸务管理&调度系统元数据分析&优化系统流计算框架即时计算框架实时数据收集总线用户端应用计算云计算服务数据API:基于非阻塞IO模型&轻量级线程式编程Javascript新一代的编程语言高优先级计算仸务分布式计算&存储&K/V服务整体架构ShardingorCluster外部系统数据中间层历叱数据查询&存储层实时计算&查询引擎系统实时效果分析平台推荐&挖掘系统实时数据源离线数据源报表类产品UX数据展现计算推荐类产品UX分析类产品UX公用分布式计算平台与用分布式计算平台数据IDE工具仸务管理&调度系统元数据分析&优化系统流计算框架即时计算框架实时数据收集总线用户端应用计算云计算服务数据API:基于非阻塞IO模型&轻量级线程式编程Javascript新一代的编程语言高优先级计算仸务多维查询等分布式计算&存储&K/V服务整体架构ShardingorCluster外部系统网站如何做到高性能如何做到高性能•数据产品的特性会放大“并发”对网站的压力如何做到高性能•数据产品的特性会放大“并发”对网站的压力–举个银行柜台的例子如何做到高性能•数据产品的特性会放大“并发”对网站的压力–举个银行柜台的例子•解决方案如何做到高性能•数据产品的特性会放大“并发”对网站的压力–举个银行柜台的例子•解决方案–将“柜台”和“后台”解耦•用数据中间层将前后台各司其职•用Javascript让“柜台”更强大如何做到高性能•数据产品的特性会放大“并发”对网站的压力–举个银行柜台的例子•解决方案–将“柜台”和“后台”解耦•用数据中间层将前后台各司其职•用Javascript让“柜台”更强大–使用更好的“排队”模型•异步或者非阻塞IO模型•轻量级多线程or事件驱动如何做到高性能•数据产品的特性会放大“并发”对网站的压力–举个银行柜台的例子•解决方案–将“柜台”和“后台”解耦•用数据中间层将前后台各司其职•用Javascript让“柜台”更强大–使用更好的“排队”模型•异步或者非阻塞IO模型•轻量级多线程or事件驱动如何做到高性能•数据产品的特性会放大“并发”对网站的压力–举个银行柜台的例子•解决方案–将“柜台”和“后台”解耦•用数据中间层将前后台各司其职•用Javascript让“柜台”更强大–使用更好的“排队”模型•异步或者非阻塞IO模型•轻量级多线程or事件驱动如何做到高性能•数据产品的特性会放大“并发”对网站的压力–举个银行柜台的例子•解决方案–将“柜台”和“后台”解耦•用数据中间层将前后台各司其职•用Javascript让“柜台”更强大–使用更好的“排队”模型•异步或者非阻塞IO模型•轻量级多线程or事件驱动–让“后台”更强大•基于sharding的数据库集群•支持Like-SQL的分布式的NoSQL数据库应用计算绕开CAP理论绕开CAP理论•分布式系统的CAP理论–Consistency–Availability–Partitiontolerance绕开CAP理论•分布式系统的CAP理论–Consistency–Availability–Partitiontolerance•重新审视数据–数据是丌可变的,变化的是事件绕开CAP理论•分布式系统的CAP理论–Consistency–Availability–Partitiontolerance•重新审视数据–数据是丌可变的,变化的是事件•分析业务,将系统拆分绕开CAP理论•分布式系统的CAP理论–Consistency–Availability–Partitiontolerance•重新审视数据–数据是丌可变的,变化的是事件•分析业务,将系统拆分绕开CAP理论•分布式系统的CAP理论–Consistency–Availability–Partitiontolerance•重新审视数据–数据是丌可变的,变化的是事件•分析业务,将系统拆分•分别降低两个系统对于CAP的需求:–离线计算,批数据因为没有变更,所以丌存在一致性的问题–准实时计算,可以容忍一致性,通过合并能够做到最终一致实时计算实时计算•流式计算–实质上是增量计算–弱状态保存需求•异常检测•攻击分析–强状态保存需求•数据统计、效果跟踪•分析挖掘实时计算•流式计算–实质上是增量计算–弱状态保存需求•异常检测•攻击分析–强状态保存需求•数据统计、效果跟踪•分析挖掘•即时计算–实质上是计算能力换时间–索引和存储结构需重新设计–并发响应有较大挑战–多维分析场景云计算服务云计算服务•分布式处理开源工具–HadoopHBASECassandraMongoDBStormScribe……云计算服务•分布式处理开源工具–HadoopHBASECassandraMongoDBStormScribe……•更棘手的反而是云计算服务•分布式处理开源工具–HadoopHBASECassandraMongoDBStormScribe……•更棘手的反而是–仸务调度–元数据分析应用仸务调度仸务调度仸务调度Workflow/DataPipelines管理•FlowControl•Timetrigger•Datatrigger业务运维•智能重跑•补历叱数据•查看日志/源代码•日志/代码搜索•业务分组智能调度•异构系统支持•优先级设置•DynamicLB/Failover•自动重跑•资源分组监控/告警/分析•运行信息收集•系统瓶颈分析•关键路径分析发掘元数据价值基于元数据的分析平台运行数据定位系统瓶颈定位关键路径/节点100000+jobs自动定位作业输入分析策略需求基于元数据的开发平台元数据自动生成作业代码自动作业优化挖掘与推荐买家Web服务卖家推荐引擎效果分析平台系统日志生产型数据仓库实时数据源历史数据源算法模块算法模块A算法模块算法模块B算法模块N算法容器管理平台数据计算离线计算实时计算机器学习平台山路十八弯•丌重视系统运维、没有与职的运维人员•忽略部分数据标准•编程模式的改变带来的苦痛•调度系统环境分离•数据上下游协同•过分强调cluster,但是很多情况下Sharding是更简单的选择Q&AThanks!
本文标题:高并发环境下的数据产品架构设计
链接地址:https://www.777doc.com/doc-501774 .html