您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 性能测试调优疑难分析案例
阿里云性能测试简介:阿里云性能测试(PerformanceTesting)是全球领先的SaaS性能测试平台,具有强大的分布式压测能力,可模拟海量用户真实的业务场景,让应用性能问题无所遁形。性能测试包含两个版本,Lite版适合于业务场景简单的系统,免费使用;企业版适合于承受大规模压力的系统,同时每月提供免费额度,可以满足大部分企业客户。主要优势有:专业:分布式并发压测,施压能力无上限;模拟业务场景,性能缺陷暴露无疑;阿里性能专家在线,测试无忧。易用:平台提供压测机,无需安装软件;脚本场景监控简单化,省时省力;1分钟上手,轻轻松松做性能测试。经济:提供企业版免费额度,零成本使用;提前容量评估,促进业务快速发展;提升用户体验,快速扩大市场份额。可靠:服务高质量容灾,可用性高达99.99%;测试结果真实准确;多种安全防护措施,保障数据安全。用淘宝帐号/1688账号登陆,没有可以注册一个阿里云账号PTSLite(简易版):(企业版):性能测试学习中心:论坛:旺旺技术支持群:14730758311背景前段时间,PTS团队经历了一个规模较大的门户网站的性能优化工作,该网站的开发和合作涉及多个组织和部门,而且网站的重要性不言而喻,同时上线时间非常紧迫,关注度也很高,所以对于整个团队的压力也非常大。在此,把整个经历过程给大家分享一下,包括了主要包括了如何使用PTS的压测工具,压测前的性能问题评估,以及压测执行后的分析问题、瓶颈定位。该门户网站的服务器是放在华通和阿里云的平台上的,所以对华通和阿里共建的云平台安全及应急措施方面要求非常高,需要团队给予全力的保障和配合。先介绍一下PTS(PerformanceTestService,简称PTS)是集测试机管理、测试脚本管理、测试场景管理、测试任务管理、测试结果管理为一体的性能云测试平台,可以帮助您全方位的评估云上系统性能本次优化主要是使用了该测试平台服务对客户搭建在ECS上的服务器进行多种类型(性能测试、负载测试、压力测试、稳定性测试、混合场景测试、异常测试等)的性能压测、调试和分析,最终达到满足期望预估的性能目标值,且上线后在高峰期满足实际的性能和稳定要求。2性能指标在介绍项目经历之前,再明确一下测试当中用到的性能指标,包括但不仅限于以下:PV:即PageView,即页面浏览量或点击量,用户每次刷新即被计算一次。我们可以认为,用户的一次刷新,给服务器造成了一次请求。UV:即UniqueVisitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。TPS:TPS(TransactionPerSecond)每秒钟系统能够处理的交易或事务的数量,它是衡量系统处理能力的重要指标。RT:响应时间是指从客户端发一个请求开始计时,到客户端接收到从服务器端返回的响应结果结束所经历的时间,响应时间由请求发送时间、网络传输时间和服务器处理时间三部分组成。VU:Virtualuser,模拟真实业务逻辑步骤的虚拟用户,虚拟用户模拟的操作步骤都被记录在虚拟用户脚本里。一般性能测试过程中,通俗称之为并发用户数。TPS波动:系统性能依赖于特定的硬件、软件代码、应用服务、网络资源等,所以在性能场景执行期间,TPS可能会表现为稳定,或者波动,抑或遵循一定的上升或下降趋势。我们用TPS波动系数来记录这个指标值。CPU:CPU资源是指性能测试场景运行的这个时间段内,应用服务系统的CPU资源占用率。CPU资源是判断系统处理能力以及应用运行是否稳定的重要参数。Load:系统正在干活的多少的度量,队列长度。系统平均负载,被定义为在特定时间间隔(1m,5m,15m)内运行队列中的平均进程数。I/O:I/O可分为磁盘IO和网卡IO。JVM:即java虚拟机,它拥有自己的处理器、堆栈、寄存器等,还有自己相应的指令系统。Java应用运行在JVM上面。GC:GC是一种自动内存管理程序,它主要的职责是分配内存、保证被引用的对象始终在内存中、把不被应用的对象从内存中释放。FGC会引起JVM挂起。网速:网络中的数据传输速率,一般以Byte/s为单位。通过ping延时来反映网速.流量:性能测试中,一般指单位时间内流经网卡的总流量。分为inbound和outbound,一般以KB为单位。3评估本次性能测试过程的参与人包括了阿里云应急保障小组等多部门人员,网站为外部供应商开发,阿里云提供云主机和技术支持。该网站之前前期也由其他部门做了验收工作,进行了完整的性能测试,报告显示,性能较差,第一次测试,网站并发数没有超过35个,第二次测试,网站上做了优化后,静态页面缩小后,并发用户数100内5s,200内90%响应在15s以上,随着并发用户数的增加,页面响应最高可到20多秒,而且访问明显感觉较慢,所以联系了阿里云的技术支持,希望能够帮助诊断性能问题,给出优化建议。测试业务并发用户数测试结果(单位:秒)平均响应时间90%响应时间首页浏览10012.08215.28920023.94929.092分页浏览1008.97312.34320018.84624.106真正的测试优化时间只有不到3天时间。客户在开会讨论后,评估出最终的测试目标:带页面的所有静态资源一起,响应时间必须小于5秒,同时并发访问用户数最低500,TPS根据实际的结果来得出。4分析会议上讨论完后,团队的第一感觉就是用户测试方法可能有误,一个页面加载对于阿里的应用来说,都是1秒以下的,也就是毫秒级别的,不会出现几秒的现象。而用户测试结果都以秒来衡量,所以测试页面肯定是带了静态资源一起来测的。这样的测试,其实模拟了用户的整个页面访问情况。它有一个弊端,就是带宽。一般人的电脑都是百兆网卡,最好的服务器目前也只是千兆网卡,万兆很少见,如果一个页面按照500K的大小来计算,百兆网卡的压测客户端,最大1秒钟并发也就约25个(100M*1000(Kb)/8/500(KB)=25),网卡打满后,再增加压力,增加并发,TPS也不会升高,响应时间反而会升高,才会达到1秒,5秒,甚至20秒,有时候还会超时。但这种方法客户认为最接近用户体验,属于页面全部加载完了。我们思考一下,一方面浏览器加载静态资源肯定不是串行的,同时还有js的执行时间无法模拟;另一方面静态资源都是会缓存的,如果每次压测都要下载静态资源也不妥。所以这种方式其实也无法真实模拟用户访问的。当然也不排除有些测试工具是可以模拟这种并发的,至少在该项目中,并没有这样去做。注:页面的响应时间88%左右都是消耗在前端资源加载上,服务器端消耗只占到了页面响应的12%左右这种场景适合如JS、css、image等静态资源和后端代码放置在同一台服务器上的情况。一个网站的响应一般由四部分时间组成,前端、网络、服务器和数据库,前端主要是减小页面大小,减小页面请求数,优化页面js等,网络主要是使用CDN,优化连接数等,服务器主要是优化Apache,优化Tomcat,优化java代码等,数据库是优化sql语句,优化索引,优化数据存储等。5测试和优化先不讨论他的测试方法是否准确,我们首先以测试和优化为目的,对该门户网站进行测试和分析,包括了以下方面:5.1页面前端分析和优化我们对页面的优化仍然从前端开始,首先通过PTS的前端测试工具(未开放)进行扫描,我们发现以下问题并优化:静态文件无缓存,服务器配置解决1.Js较大,无压缩,同时存在重复请求,最多一个js加载4次,已做压缩和减少。2.Js位置不合理,阻碍页面加载。3.外部css考虑本地实现,减少调用4.Banner背景图片较多,无压缩,建议合并5.页面1的后台.do有4个,减少为3个6.页面2的后台do有2个,减少为1个7.存在加载失败链接,404失败,同时次数非常多,更换为cnzz8.页面加载外部资源失败(qq等),且不稳定9.分享功能比较慢10.外部资源建议异步实现,目前全部是jquery渲染,iframe嵌套,时间资源限制,后期优化11.尽量减少或者不使用iframe12.页面请求数太多,主要是js和css重复加载问题和图片较小导致的。第一阶段性成果:在进行了第一轮的前端优化后,性能提高25%,首页响应从1.5秒提高到1.1秒,并且前端优化持续进行。前端页面最终结果:最初的startRender(页面首次渲染)时间由1.5秒变为0.8秒完全加载时间由4秒下降至2.8秒domReady(DOM结构完成)时间由3.2秒下降至2.75秒遗留问题:其他页面未做测试,其他厂商也应该按照这个原则来,前端测试工具会在今后的发展中整合在阿里云PTS的性能测试平台当中,整体关注页面性能。5.2服务器端优化服务器端优化主要就是针对上图中12%的页面性能,一般核心页面都要求在300毫秒以下,非核心页面要求在500毫秒以下,同时重点关注并发时的负载和稳定,服务器端代码和响应的快速稳定是整个页面性能的重点。5.2.1PTS脚本编写和场景构造:根据前期需求评估的内容,客户是一个门户网站,主要由不同功能页面组成的,各个功能页面当中又包含了静态内容和异步动态请求,所以,PTS的脚本的编写主要涵盖了各页面的请求和相关静态资源的请求,这里存在一个串行和并行的概念,一般建议:串行:请求的页面和页面当中的静态资源、异步动态请求组成一个同步请求,每一个内容都作为一个事务(也可以共同组成一个事务,分开事务的好处是可以统计各部分的响应时间),这样压测任务执行时,线程就会根据事物的顺序分布调用执行,相当于一个页面的顺序加载,弊端是无法模拟实际IE的小范围并发,但这样测试的结果是最严格的。并行:各个页面之前可以使用不同的任务,采用并行的混合场景执行,同时设置一定的比例(并发用户数),保证服务器承受的压力与实际用户访问相似。场景并发用户数:经常会遇到“设置多大并发用户数合适?”的问题,因为在没有任何思考时间的时候,我们有一个简单的公式:VU(并发压测用户数)=TPS(每秒执行事务数)×RT(响应时间)所以,在寻找合适的并发用户数上,建议使用PTS的“梯度模式”,逐渐增加并发用户数,这个时候压力也会越来越大,当TPS的增长率小于响应时间的增长率时,这就是性能的拐点,也就是最合理的并发用户数;当TPS不再增长或者下降时,这个时候的压力就是最大的压力,所使用的并发用户数就是最大的并发用户数。如果此时的TPS不满足你的要求,那么就需要寻找瓶颈来优化。如下图演示的一个性能曲线:a点:性能期望值b点:高于期望,系统安全c点:高于期望,拐点d点:超过负载,系统崩溃注意:使用外网地址压测可能会造成瞬时流量较大,造成流量计费,从而产生费用,建议可以使用内网地址压测,避免损失。5.2.2第一阶段:在按照客户提供的4个URL请求构造场景压测以后,同时根据实际情况和客户要求,使用PTS,构造相应的场景和脚本后,模拟用户实际访问情况,并且脚本中加上了img、js、css等各一个的最大静态资源:条件:5台ECS机器,200并发用户数,一个后台页面加3个静态页面(共150K)结果:静态4000TPS,动态1500TPS,服务器资源:CPU98%分析和优化:1.服务器资源消耗较高,超过75%,存在瓶颈,分析平台显示为分析原来是apache到tomcat的连接等待导致,现象是100个并发压测,就有100个tomcat的java线程,而且全部是runnable的状态,轮询很耗时间。同时发现用户使用的是http协议,非ajp协议,不过这个改动较大,需要使用mod_jk模块,时间原因,暂缓。解决方法:修改了Apache和tomcat的连接协议为nio协议,同时去除ssl协议。Tomcat连接数据库池由30初始调整为300,减少开销Connectorport=8080protocol=o
本文标题:性能测试调优疑难分析案例
链接地址:https://www.777doc.com/doc-2437811 .html