您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 2014SACC天猫聚石塔运维-段继刚
天猫聚石塔运维段继刚微博:贺兰云天雪email:duanjigang1983@gmail.com分享内容•聚石塔介绍•运维要做的工作•聚石塔怎么运维•运维做了什么•对未来的畅想1聚石塔介绍-场景•背景:购物狂欢节,订单,流量•问题:淘宝订单商家后台支付宝/银行支付物流系统•解法:淘宝订单商家后台支付宝/银行支付物流系统金融云:聚宝盆电商云:聚石塔支付困难丢单漏单•云产品:ECSSLB云监控云盾OSSOTSRDSODPS1聚石塔介绍-前身•主机配置升级扩容麻烦,运维难,网络跨运营商慢,可靠存储方案少,单点问题•数据库需要专门DBA,自主容灾,问题排查,配置升级不易•数据安全数据泄漏,肉鸡,攻击,SQL注入等问题多发。•存储/缓存服务需要自己搭建在线缓存服务,缺少海量,可动态扩容存储服务•系统监控需要自主开发,人力投入大,运维难•订单获取订单信息获取慢,受限于商家水平,安全意识差,数据泄漏多天猫主站淘宝开放平台网络购物订单,交易,商品和用户信息阿里内部环境商家系统商家DB用户内部/托管环境订单信息开放api1聚石塔介绍-入塔后天猫主站淘宝开放平台网络购物订单,交易,商品和用户信息阿里内部环境开放api阿里云/聚石塔环境云服务器云数据库订单推送服务云盾聚石塔优点:(1):资源弹性伸缩,更便利,可靠存储。(2):云主机,云数据库维护更简单。(3):阿里专用网,解决跨运营商问题。(4):更好的安全防护,数据更安全。(5):应用改造,优化,效率。(6):订单信息获取更及时,准确。更多。。。。1聚石塔介绍-使用到的云产品弹性计算ECSSLB云盾云监控计算资源自由伸缩,安全,自如应对突发峰值存储和数据库服务OSSOTSRDS高可靠性:活的存储,可调用,可计算大规模计算ODPS同时调动上万个CPU,每天处理PB级别数据2运维要做的工作-主要分类产品学习:云产品种类多,运维要掌握产品功能,用法工单处理:售卖量增加,用户问题,工单量增加特殊需求:多机房,多地域部署,一键扩容资源规划:售卖统计,容量管理问题发现:客服/技术支持/运维被动处理问题变更参与:产品发布升级,风险评估,进度控制产品改进:产品bug,功能缺失发现等故障处理:故障响应,问题排查,影响评估2运维要做的工作-实际CASE产品学习新发布OXS服务,要了解功能,产品特性,应用场景,培训给其他支持团队工单处理售卖云产品增加,工单增加,忙的不可开交,没空“干正事”特殊需求高大上用户要多机房,要快速扩容,支持团队搞不定,运维必须满足需求资源规划关注云主机,云数据库售卖情况,剩余库存是否紧张,及时申请新资源问题发现总是被问题中断,半夜被支持团队电话叫醒,紧急处理问题变更参与产品发布,升级,一个接一个,都要关注产品改进基础产品不稳定,问题修复慢,发布周期长故障处理故障第一时间响应,处理,跟踪修复等3聚石塔怎么运维-基本原则团队规范工具平台技术支持运营应用运维产品/服务SA产品规划发布变更流程故障处理流程产品开发流程学习培训平台变更控制系统故障发布系统工单处理系统监控报警系统资源管理系统客服开发测试过程改进3聚石塔怎么运维-改进方法问题发现(1):产品提供Q&A功能,提高用户消灭问题能力,减少被动问题处理(2):推广云产品体检,监控工具,主动发现问题,推动用户解决。工单处理(1):产品向运维,技术支持等团队提供新功能宣讲,新工具使用培训。(2):规范处理流程:技术支持-应用运维-基础产品运维-开发应用需求(1):运维/技术支持处理一次性需求。(2):频繁,重复性需求通过运维反馈到开发,进行产品化支持资源规划(1):通过运维平台进行云产品容量的监控,售卖趋势预测。(2):与运营团队同步,沟通大的促销,推广计划,处理特殊库存需求。3聚石塔怎么运维-改进方法产品学习(1):产品提供提供API文档,部署搭建手册,知识库等在线平台。(2):基础产品运维与应用运维分开,应用运维面向客户,基础运维面向应用运维变更参与(1):变更提交,审批和操作线上规范化,提供测试方案,回滚方案,风险评估等。(2):大面积发布/变更严格支持灰度方案。产品改进(1):产品可运维性,比如监控等接口(2):稳定,广泛使用的运维工具,逐步产品化故障处理(1):故障紧急处理流程,平台,团队明确化(2):故障review,改进,认责机制。3聚石塔怎么运维-团队协作模型聚石塔客户客服/技术支持运维开发内部手册,工具文档,工作流等产品规划云产品3聚石塔怎么运维-模型实例1客户想重置密码,并且应用部署到多机房,扩容100台2客服/技术支持告知其在哪里怎么操作,多机房,扩容问题反馈到运维3产品不支持多机房,扩容,运维人工调用命令实现多机房4快速扩容运维反馈到开发,开发协助完成。5开发反馈多机房,快速扩容需求到产品规划。6产品规划把多机房方案,快速扩容列入产品计划。7产品开发,发布新功能4运维做了什么?•系统稳定•客户服务•数据安全4运维做了什么?-系统稳定•各类云产品发布变更控制•基础产品故障演练•业务系统监控报警•产品全链条压力测试•多机房,异地灾备•资源离散,风险消除4运维做了什么?-客户服务•负载分析,应用优化-云主机,云数据库•弹性升级-有偿,无偿,主动,被动•单独商家压力测试•基础服务支持-DNS,NTP,YUM等•7*24小时支持4运维做了什么?-数据安全•攻击检测,web应用防火墙•安全agent,肉鸡,漏洞,后门检测•报文分析,数据泄漏检测5对未来运维的畅想1售卖/库存精细化管理,智能预测2全链路云产品监控,故障发现3海量数据,问题发现,用户应用改造4移动端运维,业务报表Q&A
本文标题:2014SACC天猫聚石塔运维-段继刚
链接地址:https://www.777doc.com/doc-6421148 .html