您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 投融资/租赁 > Linux内核在uCloud云平台上的实践
UCloud云平台的内核实践云主机常见问题•••内核宕机硬件宕机甚至不明宕机•性能差(特别是IO)每一台宿主机都是单点cpumemdisknicQEMU&KVM宿主机内核业务程序云主机内核业务程序云主机内核••••远程快速拉起万兆网络块存储Checkpoint&faulttolerace后台存储集群、SSD•…复杂、代价大从平台设计上避免单点局限?QEMU&KVM宿主机内核业务程序云主机内核QEMU&KVM宿主机内核•••内核故障–自主维护内核–免重启修复硬件故障–隔离内存硬件缺陷–按情况提高容忍度–在线迁移予以规避性能–磁盘IO加速–大页、网络路径优化等UCloud优先从单点自身出发——内核改进运行中内核(带缺陷)运行中内核(无缺陷)UCloud内核优化例1——免重启修复源码补丁UCloud所有内核BUG均免重启修复ksplice模块生成热补丁模块免重启修复:热补丁生成过程••成熟应用–所有内核BUG均免重启修复–累计数万台次–无性能损耗,业务中断时间十毫秒UCloud对开源Ksplice的修改–支持各种版本内核–中断时间百毫秒-十毫秒–允许免重启修复关键路径(hrtimer,scheduler)免重启修复:运营结果UCloud内核优化例2——内存硬件故障隔离多少根内存条?多数MCE错误可隔离内存错误不可纠正可恢复kvm进程隔离错误区域并通知虚拟机可纠正记录并报警不可纠正不可恢复KernelPanic内核忽略错误普通进程隔离错误区域或杀死进程普通进程隔离错误区域或杀死进程内核忽略错误硬盘种类随机IOPS(4ksize)SATA/SAS100~175(1MB)SSD2万~40万(80MB~1.6GB)SATA+SSD?UCloud内核优化例3——磁盘IO加速能否鱼和熊掌兼得?SATA的价格和数据可靠性SSD的性能KeyObservation业务关心随机写性能SATA顺序写可达140MB(3.5万*4K)UCloud内核优化例3——磁盘IO加速原理加速模块接管所有IO写IO被顺序化至Cache盘组Cache盘组同步至真实盘组效果随机写IOPS=3.5万高可靠、低成本BlockI/O层IO加速模块Cache盘组(RAID10)真实盘组(RAID10)••硬件故障–隔离硬件缺陷–按情况提高容忍度–在线迁移予以规避性能–磁盘IO加速–大页、网络路径优化等内核改进的价值内核改进•内核故障–自主维护内核–免重启修复对于用户•可用性–无需关心软硬件缺陷–关键BUG免重启修复•性能–“价廉物美”对于平台设计•复杂方案可用于其它目的••宿主机内核和QEMU、KVM引入额外故障提升可用性–软件故障:热补丁修复–硬件故障:内存缺陷隔离–不可避免故障:迁移规避•最终虚拟机可用性可以高于物理机!思考:云主机可用性低于物理机?cpumemdisknicQEMU&KVM宿主机内核业务程序云主机内核业务程序云主机内核•••CPU和内存磁盘IO网络IO思考:云主机性能低于物理机?••••修复10+个上游原生BUG累计避免数万次宿主机重启IO性能10+倍于同类产品在线迁移无一例失败内核是云平台的关键基础UCloud内核数据分享
本文标题:Linux内核在uCloud云平台上的实践
链接地址:https://www.777doc.com/doc-3356290 .html