您好,欢迎访问三七文档
京东云自动化运维体系构建京东云资深架构师郑永宽个人简介华中科技大学硕士2011~2016:百度自动化运维平台项目经理分布式任务调度系统数据传输系统百度部署发布系统2016~今:京东云运维平台负责人京东云自动化运维体系构建6年自动化运维平台研发运营经验目录概要介绍基础组件介绍部署系统介绍监控系统介绍总结与展望0102030405京东云–能力输出到技术赋能京东云技术赋能金融运营营销仓储配送客服售后大数据人工智能智慧物流智慧供应链京东能力输出物流电商金融保险京东公有云平台京东能力+云平台=赋能客户作为京东集团能力的对外输出窗口,2016年4月正式发布京东云运维平台—为京东云保驾护航•传统运维•基础场景•关键问题•可用性(稳定性)•效率:研发、运维、测试的全环节效率•成本运维场景部署变更故障管理环境维护网络管理资源管理监控管理备份管理安全•京东云运维新挑战•对内保障京东云自身系统稳定性•对外保障SaaS用户业务稳定性•提升用户交付效率•精细化运维体验基础设施运维业务系统运维定制化用户运维京东云运维平台–为京东云保驾护航RoadMap基础组件构建客户端体系构建监控部署系统构建运维平台完善SaaS化京东云运维平台概览实例应用系统产品线二级部门公司京东云基础云云主机云硬盘技术保障部运维工具ArkLoadInstance1Instance2CDN基础组件—服务与资源管理APP实例名字服务主机服务树与名字服务示意图•服务树•业务组织架构信息•全流程机器管理•角色管理与基于角色的权限控制•其他meta数据•JDNamingService(名字服务)•维护实例-App-主机之间的对应关系•服务关联关系管理•服务解耦合•ControlTower–对指定的一批机器,按照指定策略,执行指定命令•批量执行–基于服务树和JNS–指定账号•策略–并发控制:并发度、串并行–容错控制:失败阈值、超时阈值•扩展性–业务端统一API–插件化•可追溯–任务记录–单机日志基础组件—分布式任务调度•实时数据计算–调度spark计算的能力–基于JNS的范围圈定–丰富的算子支持基础组件—监控数据平台•时序数据存储—TSDB–热点数据redis存储–多机房部署,数据热备,高可用–读写分离,高效稳定–自动抽样,查询自适应路由范围圈定数据接收分机房Spark计算Kafka-topic-AKafka-topic-BSpark-Job-ASpark-Job-BPuller-APuller-B存储报警下游JNS调度策略Nginx-sparkAApp2-sparkBMysql-sparkBApp1-sparkA加减乘除TopN分位值……querysaver数据接收数据抽样Metric-metaInterfaceEs-clientredis-client分机房部署ESRedis-FreshRedis-MetaAPIInterfaceEs-clientredis-client自适应路由查询格式转换基础组件—客户端体系构建•统一Agent管控ifrit:–托管Agent升级功能–类puppet方式,定期获取更新列表–Agent存活守护–资源超限守护–具备分级发布能力–公有云/私有云/混合云的部署解决方案•客户端的挑战:–全部机器、各种功能Agent多–机器环境复杂(磁盘、链接库、安全认证、隔离环境)–定期守护(自我守护不行,外部守护)–资源限制(cpu/fd/mem/日志)–分级发布•一体化应用部署管理平台—云翼(skywing)–编译构建–镜像管理–镜像发布–服务管理–资源管理–流量接入–日志管理运维工具构建—应用部署系统核心诉求跨平台混合云管理采用网络负载接口的抽象和多平台适配技术手段实现私有云、公有云和各种虚拟化平台。如VMware、OpenStack、物理机资源的统一接入管理。帮助用户实现统一的运维管理体验。灵活定制容器,降低企业成本以租户为单位实现,资源隔离,权限分配,资源配额管理。相比传统数据中心物理机或者虚拟机,云翼轻松实现资源容器化,从而提升资源利用率,降低企业成本简化运维,轻松实现DevOps通过统一操作入口,同时通过对特定的运维场景定制化的支持,实现一键部署、一键添加监控,一键上下游关联关系解耦,使得运维简单高效同时可统一收集应用实例的日志,能够快速查询和检索,帮助快速定位问题。一键伸缩,轻松应对业务爆发可以管理任意规模的应用。不管是10还是1000个实例,都可以在轻松实现弹性扩展。一键扩展应用实例,从而轻松应对业务的爆发式增长需求。自动容错,服务不掉线可自动为宕机服务器上运行的容器重新迁移并生成容器资源,保障业务不掉线,高可靠运行。这也就意味着您不用再为一两台服务器的宕机,而经历一个不眠之夜。容器实例服务健康检查,服务意外故障,自动拉起,做到服务故障自愈。全生命周期,一站式服务实现开发-测试-部署-运维-运营的服务全生命周期管理,轻松实现持续集成,提升研发部署效率同时支持服务编排,针对微服务场景提供特定优化功能实现•功能亮点–部署:支持构建包和镜像两种部署,轻松支持物理机、虚拟机和容器(Docker)资源;–服务和资源管理:基于NS的自动化服务和资源管理,研发无需关心APP下实例的变更–多环境管理:支持测试、预发、线上环境分离,同时支持分级发布–日志:支持日志订阅与分析–流量:支持ContainerLB–支持秒级回滚,止损效率高运维工具构建—智能监控系统监控标准抽象为基础监控、存活性监控、性能监控、应用监控四级,指导用户什么是一个‘全’的监控全链路监控解决采集从机器、网络、域名到常见的开源软件;支持聚合计算,告警处理,预案平台等跨云部署解决通过代理方案,支持私有云、公有云、混合云等不同的基础设施部署进行联动跟部署方案进行结合,上线过程无告警;事件流图,告警时方便知道是否是上线导致多环境支持多环境支持,包括linux、Windows操作系统,支持docker,物理机,虚拟机等•核心诉求—缩短异常生命周期MTTR–See-know-act智能监控功能实现•功能亮点–采集手段丰富,功能覆盖全面–多种异常检测策略•同环比/突升突降•数值/字符串报警–多维度分析能力,精准发现问题–报警功能丰富•支持报警合并•支持报警回调,故障自愈–丰富的数据展示功能,定制化DashBord支持•性能–10w+机器(容器)量级数据采集实时处理数据展示数据抽象采集Agent机器adaptorKafka&sparkpullersaverES&redisDashbord报警展示事件流图JNS机器网络域名进程端口日志自定义死机语意外部探测API推送实时聚合计算query时序数据存储judgealertsender报警通路proxyES异常事件数据挖掘关联分析根因推荐MetaDB预案止损网络环境方法业务数据应用…离线处理•京东云监控体系—全链路监控解决方案业务实践•机器监控–自动采集,支持物理机、虚拟机、容器–采集项全:Cpu/mem/disk/net/load/swap/system–支持一键搜图–检查机器连通性•默认的报警配置智能监控-基础监控告警计算(阈值)cpu空闲率cpu.idle10%磁盘使用率disk.free10%内存使用率mem.usable10%网卡使用率net.use.percent80%机器连通性等于1•进程存活–查看进程存活情况–资源消耗情况•端口存活•报警推荐–程序假死报警–关注平响,资源消耗等智能监控-存活监控告警计算(阈值)进程不存在proc.status!=1进程资源占用proc.cpu2端口不存活Port.status!=1•四大黄金指标:流量、错误码、平响、容量•采集方式–日志监控(类似logstash,命名正则)–自定义输出(脚本、http,约定格式)•报警推荐•流量(同环比)•错误码/容量(恒定阈值)•平响(突升突降、恒定阈值)智能监控–性能监控1:支持命名正则提取2:支持运营商/省份转换3:支持公式计算4:支持字典转换5:支持数值分桶•用户侧黑盒监控–外网域名监控(模拟全国各地用户访问)•整体和分运营商/省份访问情况–自定义方式模拟用户操作(脚本接入)•用户相关操作成功/失败及对应原因智能监控—业务监控总结与展望•京东云自动化运维平台—ark.jd.com总结与展望•智能化运维•服务化—致力于京东云客户成功•服务全生命周期devops•人员效率提升•交付效率提升•资源效率提升•服务稳定性提升•专有云、私有云、混合云运维解决方案•一键接入•无限扩展•7*24小时支持•成功客户•华南城•京东保险•京东物流•宿迁政务云Thankyou!
本文标题:京东云架构
链接地址:https://www.777doc.com/doc-4260522 .html