您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 36 ARM C程序设计优化
嵌入式系统程序设计大连理工大学软件学院嵌入式系统工程系赖晓晨ARMC程序设计优化编译器的特性数据类型对程序效率的影响循环方式对程序效率的影响指针对程序效率的影响边界对齐对程序的影响一、编译器的特性voidsetzero(char*p,intn){for(;n0;n--){*p=0;p++;}}清除从字符型指针p开始的n个字节空间编译器的特性(续)voidsetzero(char*p,intn){for(;n0;n--){*p=0;p++;}}问题:编译器不知道n是否为0。编译器不知道p是否4字节对齐。编译器不知道n是否为4的倍数。结论:编译器是保守的:必须假定n的所有可能值。必须假定p所有可能的边界值。编写高效C代码的要求了解哪些方面编译器是保守的了解编译器对应的处理器体系结构二、数据类型对程序效率的影响unsignedchari;for(i=0;i100;i++){…}i声明为unsignedchar的优点?无符号字符变量表示的范围超过了100,可以完成题目要求。char更节省寄存器和内存空间。函数参数类型总体思想:尽量采用int、long类型。有符号数和无符号数如果程序中只有加、减、乘法,那么有符号数和无符号数的执行效率没有区别。如果有除法,那么需要额外的步骤。有符号数和无符号数(续)有符号除法在ARMC中,如果x是负数,那么除2操作不是一个右移操作。例如-3/2=-1。但是在ARM机器中:11111101-311111110-2-111111111直接右移加1右移结论:使用无符号数除法效率更高。对于存放在寄存器中的变量,尽量采用整型。尽可能使用无符号数进行运算。函数参数和返回值尽量采用整型数据。总结三、循环方式对程序效率的影响循环是代码优化的重点C程序主要使用for和while进行循环固定次数的循环什么是ARM上编写for循环最高效的方法?固定次数的循环(续)inti;for(i=0;i100;i++){…}inti;for(i=100;i0;i--){…}上面代码要实现转移需要两条指令,首先把某寄存器的内容和100比较,其次条件符合时转移。相同功能的代码如果写作下面形式,则可用“BNE”一条指令实现比较以及转移两个功能。至少一次循环对于“for(;n0;n--)”,如果能确保第一次循环之前n恒大于0,此时取消第一次n大于0的判断,是不会影响程序的逻辑,而且显然程序执行效率可以提高,用do…while…循环可以达到这一目的循环展开循环开销重复100次,假设每次循环开销占用4个时钟周期,循环体中的加法占用1个时钟周期,那么有效程序仅占CPU执行时间的20%,其余80%都是服务性开销,效率为1/5。inti,t=0;for(i=100;i0;i--){t++;}循环展开(续)inti,t=0;for(i=50;i0;i--){t++;t++;}每次循环开销4个时钟周期不变,但是有效程序占用2个时钟周期,也即效率提高到1/3。循环展开(续)问题:循环展开到什么程度?全部展开是否最优?要意识到循环展开是有代价的:增加程序的长度。循环体内代码越多,就越有可能造成cache失效所以在任何程度上展开循环要具体问题具体分析,在执行时间和代码量间找到一个最佳平衡点。总结:循环计数递减。如确定循环次数大于1,那么用do…wile。对于小循环体,可以循环展开。四、指针对程序效率的影响别名当两个指针指向同一个对象时,这两个指针被称作该对象的别名。编译器的特点:不知道是否是别名编译器是悲观的指针对程序效率的影响(续)voidthrowtobag(int*mybag,int*yourbag,int*stone){*mybag+=*stone;//语句1*yourbag+=*stone;//语句2}站在编译器的角度思考一下有无问题?指针对程序效率的影响(续)上面代码的语句1被GCC编译时,会出现诸如“LDRri,[r2,#0]”之类汇编指令,表示首先要从stone指向的地址读出一个数据,以便来把它加到mybag指向指明的地址处。此处r2代表stone,因为它是函数的第三个参数,轮到r2来承载它。令人惊奇的是,编译语句2时,仍然包含一条“LDRri,[r2,#0]”语句,stone的值不是已经由语句1得到了吗?为什么还要这一条语句?指针对程序效率的影响(续)讨论:编译器不会自动识别指针指向的对象不知道是否是别名悲观、保守思考:采用什么办法可以避免读两次内存?五、边界对齐对程序的影响边界对齐问题__packed关键字边界对齐问题对齐问题对结构体也有影响。在结构体中定义若干变量如果长短相间,由于对齐问题,势必浪费一些空间。例如一个整形变量和一个字符变量放在一起,总共占用8个字节空间,但是其中保存有效数据的只有5个字节。所以可以采用这种策略:在结构体的最前面定义的所有的字符型变量,中间定义所有的短整型变量,最后定义所有的整形变量,可以把浪费的空间减到最小。__packed关键字有的C编译器支持__packed关键字,它可以突破边界对齐的限制,在任意类型的变量按照任意顺序定义的情况下,都能够紧凑的安排存储空间,此时的代价是牺牲程序的运行效率__packed关键字(续)代码完成从任意地址p处读取一个整型变量,且不要求此地址是4的整数倍,返回值为此地址起始的4字节数据。intfetchint(__packedint*p){return*p;}__packed关键字(续)218765431110010000011011p低两位地址高两位地址上图是上述代码的实例,数据按照小端存储,读取一个没有对齐的整型数据。__packed关键字(续)地址不对齐时,即使是非常简单的读取一个整型数据,也比较复杂。__packed节约了空间,但是损失了运行效率。在硬件资源已经非常丰富的今天,空间限制已经不是主要矛盾,程序效率往往更受人关注。
本文标题:36 ARM C程序设计优化
链接地址:https://www.777doc.com/doc-23401 .html