在性能优化方面永远注意80-20原则,即20%的程序消耗了80%的运行时间,于是咱们要改进效率,最主要是考虑改进那20%的代码。不要优化程序中开销不大的那80%,这是劳而无功的。
第一招:以空间换时间
计算机程序中最大的矛盾是空间和时间的矛盾,那么,从这个角度出发逆向思惟来考虑程序的效率问题,咱们就有了解决问题的第1招--以空间换时间。好比说字符串的赋值:
方法A:一般的办法
#define LEN 32
char string1 [LEN];
memset (string1,0,LEN);
strcpy (string1,"This is a example!!");
方法B:
const char string2[LEN] ="This is a example!";
char * cp;
cp = string2
使用的时候能够直接用指针来操做。
从上面的例子能够看出,A和B的效率是不能比的。在一样的存储空间下,B直接使用指针就能够操做了,而A须要调用两个字符函数才能完成。B的缺点在于灵活 性没有A好。在须要频繁更改一个字符串内容的时候,A具备更好的灵活性;若是采用方法B,则须要预存许多字符串,虽然占用了大量的内存,可是得到了程序执 行的高效率。
若是系统的实时性要求很高,内存还有一些,那我推荐你使用该招数。
第二招: 使用宏而不是函数。
这也是第一招的变招。函数和宏的区别就在于,宏占用了大量的空间,而函数占用了时间。你们要知道的是,函数调用是要使用系统的栈来保存数据的,若是编 译器里有栈检查选项,通常在函数的头会嵌入一些汇编语句对当前栈进行检查;同时,CPU也要在函数调用时保存和恢复当前的现场,进行压栈和弹栈操做,所 以,函数调用须要一些CPU时间。而宏不存在这个问题。宏仅仅做为预先写好的代码嵌入到当前程序,不会产生函数调用,因此仅仅是占用了空间,在频繁调用同 一个宏的时候,该现象尤为突出。
举例以下:
方法C:
#define bwMCDR2_ADDRESS 4
#define bsMCDR2_ADDRESS 17
int BIT_MASK(int __bf)
{
return ((1U << (bw ## __bf)) - 1)<< (bs ## __bf);
}
void SET_BITS(int __dst,
int __bf, int __val)
{
__dst = ((__dst) & ~(BIT_MASK(__bf))) |
\
(((__val) << (bs ## __bf))
& (BIT_MASK(__bf))))
}
SET_BITS(MCDR2, MCDR2_ADDRESS,ReGISterNumber);
方法D:
#define bwMCDR2_ADDRESS 4
#define bsMCDR2_ADDRESS 17
#define bmMCDR2_ADDRESS BIT_MASK(MCDR2_ADDRESS)
#define BIT_MASK(__bf)
(((1U << (bw ## __bf)) - 1)
<< (bs ## __bf))
#define SET_BITS(__dst, __bf, __val)
\
((__dst) = ((__dst) & ~(BIT_MASK(__bf)))
| \
(((__val) << (bs ## __bf))
& (BIT_MASK(__bf))))
SET_BITS(MCDR2, MCDR2_ADDRESS,
RegisterNumber);
D方法是我看到的最好的置位操做函数,是ARM公司源码的一部分,在短短的三行内实现了不少功能,几乎涵盖了全部的位操做功能。C方法是其变体,其中滋味还需你们仔细体会。
第三招:数学方法解决问题
如今咱们演绎高效C语言编写的第二招--采用数学方法来解决问题。数学是计算机之母,没有数学的依据和基础,就没有计算机的发展,因此在编写程序的时候,采用一些数学方**对程序的执行效率有数量级的提升。举例以下,求 1~100的和。
方法E:
int I , j;
for (I = 1 I<=100; I ++)
{
j += I;
}
方法F
int I;
I = (100 * (1+100)) / 2
这个例子是我印象最深的一个数学用例,是个人计算机启蒙老师考个人。当时我只有小学三年级,惋惜我当时不知道用公式 N×(N+1)/ 2 来解决这个问题。方法E循环了100次才解决问题,也就是说最少用了100个赋值,100个判断,200个加法(I和j);而方法F仅仅用了1个加法,1 次乘法,1次除法。效果天然不言而喻。因此,如今我在编程序的时候,更多的是动脑筋找规律,最大限度地发挥数学的威力来提升程序运行的效率。
第四招:使用位操做
使用位操做。减小除法和取模的运算。在计算机程序中数据的位是能够操做的最小数据单位,理论上能够用"位运算"来完成全部的运算和操做。通常的位操做是用来控制硬件的,或者作数据变换使用,可是,灵活的位操做能够有效地提升程序运行的效率。举例以下:
方法G
int I,J;
I = 257 /8;
J = 456 % 32;
方法H
int I,J;
I = 257 >>3;
J = 456 - (456 >> 4 << 4);
在字面上好像H比G麻烦了好多,可是,仔细查看产生的汇编代码就会明白,方法G调用了基本的取模函数和除法函数,既有函数调用,还有不少汇编代码和寄存器 参与运算;而方法H则仅仅是几句相关的汇编,代码更简洁,效率更高。固然,因为编译器的不一样,可能效率的差距不大,可是,以我目前遇到的MS C ,ARM C 来看,效率的差距仍是不小。对于以2的指数次方为"*"、"/"或"%"因子的数学算,转为移位运算"<< >>"一般能够提升算法效率。由于乘除运算指令周期一般比移位运算大。C语言位运算除了能够提升运算效率外,在嵌入式系统的编程中,它的另外一 个最典型的应用,并且十分普遍地正在被使用着的是位间的与(&)、或(|)、非(~)操做,这跟嵌入式系统的编程特色有很大关系。咱们一般要对硬 件寄存器进行位设置,譬如,咱们经过将AM186ER型80186处理器的中断屏蔽控制寄存器的第低6位设置为0(开中断2),最通用的作法是:
#define INT_I2_MASK 0x0040
wTemp = inword(INT_MASK);
outword(INT_MASK, wTemp &~INT_I2_MASK);
而将该位设置为1的作法是:
#define INT_I2_MASK 0x0040
wTemp = inword(INT_MASK);
outword(INT_MASK, wTemp | INT_I2_MASK);
判断该位是否为1的作法是:
#define INT_I2_MASK 0x0040
wTemp = inword(INT_MASK);
if(wTemp & INT_I2_MASK)
{
… /* 该位为1 */
}
运用这招须要注意的是,由于CPU的不一样而产生的问题。好比说,在PC上用这招编写的程序,并在PC上调试经过,在移植到一个16位机平台上的时候,可能会产生代码隐患。因此只有在必定技术进阶的基础下才可使用这招。
第五招:汇编嵌入
在熟悉汇编语言的人眼里,C语言编写的程序都是垃圾"。这种说法虽然偏激了一些,可是却有它的道理。汇编语言是效率最高的计算机语言,可是,不可能靠 着它来写一个操做系统吧?因此,为了得到程序的高效率,咱们只好采用变通的方法--嵌入汇编,混合编程。嵌入式C程序中主要使用在线汇编,即在C程序中直 接插入_asm{ }内嵌汇编语句。
举例以下,将数组一赋值给数组二,要求每一字节都相符。
char string1[1024],string2[1024];
方法I
int I;
for (I =0 I<1024;I++)
*(string2 + I) = *(string1 + I)
方法J
#ifdef _PC_
int I;
for (I =0 I<1024;I++)
*(string2 + I) = *(string1 + I);
#else
#ifdef _ARM_
__asm
{
MOV R0,string1
MOV R1,string2
MOV R2,#0
loop:
LDMIA R0!, [R3-R11]
STMIA R1!, [R3-R11]
ADD R2,R2,#8
CMP R2, #400
BNE loop
}
#endif
再举个例子:
/* 把两个输入参数的值相加,结果存放到另一个全局变量中 */
int result;
void Add(long a, long *b)
{
_asm
{
MOV AX, a
MOV BX, b
ADD AX, [BX]
MOV result, AX
}
}
方法I是最多见的方法,使用了1024次循环;方法J则根据平台不一样作了区分,在ARM平台下,用嵌入汇编仅用128次循环就完成了一样的操做。这里有朋 友会说,为何不用标准的内存拷贝函数呢?这是由于在源数据里可能含有数据为0的字节,这样的话,标准库函数会提早结束而不会完成咱们要求的操做。这个例 程典型应用于LCD数据的拷贝过程。根据不一样的CPU,熟练使用相应的嵌入汇编,能够大大提升程序执行的效率。
虽然是必杀技,可是若是轻易使用会付出惨重的代价。这是由于,使用了嵌入汇编,便限制了程序的可移植性,使程序在不一样平台移植的过程当中,卧虎藏龙,险象环生!同时该招数也与现代软件工程的思想相违背,只有在无可奈何的状况下才能够采用。
第六招, 使用寄存器变量
当对一个变量频繁被读写时,须要反复访问内存,从而花费大量的存取时间。为此,C语言提供了一种变量,即寄存器变量。这种变量存放在CPU的寄存器中,使 用时,不须要访问内存,而直接从寄存器中读写,从而提升效率。寄存器变量的说明符是register。对于循环次数较多的循环控制变量及循环体内反复使用 的变量都可定义为寄存器变量,而循环计数是应用寄存器变量的最好候选者。
(1) 只有局部自动变量和形参才能够定义为寄存器变量。由于寄存器变量属于动态存储方式,凡须要采用静态存储方式的量都不能定义为寄存器变量,包括:模块间全局变量、模块内全局变量、局部static变量;
(2) register是一个"建议"型关键字,意指程序建议该变量放在寄存器中,但最终该变量可能由于条件不知足并未成为寄存器变量,而是被放在了存储器中,但编译器中并不报错(在C++语言中有另外一个"建议"型关键字:inline)。
下面是一个采用寄存器变量的例子:
/* 求1+2+3+….+n的值 */
WORD Addition(BYTE n)
{
register i,s=0;
for(i=1;i<=n;i++)
{
s=s+i;
}
return s;
}
本程序循环n次,i和s都被频繁使用,所以可定义为寄存器变量。
第七招: 利用硬件特性
首先要明白CPU对各类存储器的访问速度,基本上是:
CPU内部RAM > 外部同步RAM > 外部异步RAM > FLASH/ROM
对于程序代码,已经被烧录在FLASH或ROM中,咱们可让CPU直接从其中读取代码执行,但一般这不是一个好办法,咱们最好在系统启动后将FLASH或ROM中的目标代码拷贝入RAM中后再执行以提升取指令速度;
对于UART等设备,其内部有必定容量的接收BUFFER,咱们应尽可能在BUFFER被占满后再向CPU提出中断。例如计算机终端在向目标机经过RS-232传递数据时,不宜设置UART只接收到一个BYTE就向CPU提中断,从而无谓浪费中断处理时间;
若是对某设备能采起DMA方式读取,就采用DMA读取,DMA读取方式在读取目标中包含的存储信息较大时效率较高,其数据传输的基本单位是块,而所传 输的数据是从设备直接送入内存的(或者相反)。DMA方式较之中断驱动方式,减小了CPU 对外设的干预,进一步提升了CPU与外设的并行操做程度。程序员
C代码优化方案算法
1、选择合适的算法和数据结构编程
选择一种合适的数据结构很重要,若是在一堆随机存放的数中使用了大量的插入和删除指令,那使用链表要快得多。数组与指针语句具备十分密切的关系,通常来讲,指针比较灵活简洁,而数组则比较直观,容易理解。对于大部分的编译器,使用指针比使用数组生成的代码更短,执行效率更高。数组
在许多种状况下,能够用指针运算代替数组索引,这样作经常能产生又快又短的代码。与数组索引相比,指针通常能使代码速度更快,占用空间更少。使用多维数组时差别更明显。下面的代码做用是相同的,可是效率不同?缓存
数组索引 指针运算性能优化
For(;;){ p=array数据结构
A=array[t++]; for(;;){异步
a=*(p++);模块化
。。。。。。。。。 。。。。。。函数
} }
指针方法的优势是,array的地址每次装入地址p后,在每次循环中只需对p增量操做。在数组索引方法中,每次循环中都必须根据t值求数组下标的复杂运算。
2、使用尽可能小的数据类型
可以使用字符型(char)定义的变量,就不要使用整型(int)变量来定义;可以使用整型变量定义的变量就不要用长整型(long int),能不使用浮点型(float)变量就不要使用浮点型变量。固然,在定义变量后不要超过变量的做用范围,若是超过变量的范围赋值,C编译器并不报错,但程序运行结果却错了,并且这样的错误很难发现。
在ICCAVR中,能够在Options中设定使用printf参数,尽可能使用基本型参数(%c、%d、%x、%X、%u和%s格式说明符),少用长整型参数(%ld、%lu、%lx和%lX格式说明符),至于浮点型的参数(%f)则尽可能不要使用,其它C编译器也同样。在其它条件不变的状况下,使用%f参数,会使生成的代码的数量增长不少,执行速度下降。
3、减小运算的强度
(1)、查表(游戏程序员必修课)
一个聪明的游戏大虾,基本上不会在本身的主循环里搞什么运算工做,绝对是先计算好了,再到循环里查表。看下面的例子:
旧代码:
long factorial(int i)
{
if (i == 0)
return 1;
else
return i * factorial(i - 1);
}
新代码:
static long factorial_table[] =
{1, 1, 2, 6, 24, 120, 720 /* etc */ };
long factorial(int i)
{
return factorial_table[i];
}
若是表很大,很差写,就写一个init函数,在循环外临时生成表格。
(2)、求余运算
a=a%8;
能够改成:
a=a&7;
说明:位操做只需一个指令周期便可完成,而大部分的C编译器的“%”运算均是调用子程序来完成,代码长、执行速度慢。一般,只要求是求2n方的余数,都可使用位操做的方法来代替。
(3)、平方运算
a=pow(a, 2.0);
能够改成:
a=a*a;
说明:在有内置硬件乘法器的单片机中(如51系列),乘法运算比求平方运算快得多,由于浮点数的求平方是经过调用子程序来实现的,在自带硬件乘法器的AVR单片机中,如ATMega163中,乘法运算只需2个时钟周期就能够完成。既使是在没有内置硬件乘法器的AVR单片机中,乘法运算的子程序比平方运算的子程序代码短,执行速度快。
若是是求3次方,如:
a=pow(a,3。0);
更改成:
a=a*a*a;
则效率的改善更明显。
(4)、用移位实现乘除法运算
a=a*4;
b=b/4;
能够改成:
a=a<<2;
b=b>>2;
一般若是须要乘以或除以2n,均可以用移位的方法代替。在ICCAVR中,若是乘以2n,均可以生成左移的代码,而乘以其它的整数或除以任何数,均调用乘除法子程序。用移位的方法获得代码比调用乘除法子程序生成的代码效率高。实际上,只要是乘以或除以一个整数,都可以用移位的方法获得结果,如:
a=a*9
能够改成:
a=(a<<3)+a
采用运算量更小的表达式替换原来的表达式,下面是一个经典例子:
旧代码:
x = w % 8;
y = pow(x, 2.0);
z = y * 33;
for (i = 0;i < MAX;i++)
{
h = 14 * i;
printf("%d", h);
}
新代码:
x = w & 7; /* 位操做比求余运算快*/
y = x * x; /* 乘法比平方运算快*/
z = (y << 5) + y; /* 位移乘法比乘法快 */
for (i = h = 0; i < MAX; i++)
{
h += 14; /* 加法比乘法快 */
printf("%d",h);
}
(5)、避免没必要要的整数除法
整数除法是整数运算中最慢的,因此应该尽量避免。一种可能减小整数除法的地方是连除,这里除法能够由乘法代替。这个替换的反作用是有可能在算乘积时会溢出,因此只能在必定范围的除法中使用。
很差的代码:
int i, j, k, m;
m = i / j / k;
推荐的代码:
int i, j, k, m;
m = i / (j * k);
(6)、使用增量和减量操做符
在使用到加一和减一操做时尽可能使用增量和减量操做符,由于增量符语句比赋值语句更快,缘由在于对大多数CPU来讲,对内存字的增、减量操做没必要明显地使用取内存和写内存的指令,好比下面这条语句:
x=x+1;
模仿大多数微机汇编语言为例,产生的代码相似于:
move A,x ;把x从内存取出存入累加器A
add A,1 ;累加器A加1
store x ;把新值存回x
若是使用增量操做符,生成的代码以下:
incr x ;x加1
显然,不用取指令和存指令,增、减量操做执行的速度加快,同时长度也缩短了。
(7)、使用复合赋值表达式
复合赋值表达式(如a-=1及a+=1等)都可以生成高质量的程序代码。
(8)、提取公共的子表达式
在某些状况下,C++编译器不能从浮点表达式中提出公共的子表达式,由于这意味着至关于对表达式从新排序。须要特别指出的是,编译器在提取公共子表达式前不能按照代数的等价关系从新安排表达式。这时,程序员要手动地提出公共的子表达式(在VC.NET里有一项“全局优化”选项能够完成此工做,但效果就不得而知了)。
很差的代码:
float a, b, c, d, e, f;
。。。
e = b * c / d;
f = b / d * a;
推荐的代码:
float a, b, c, d, e, f;
。。。
const float t(b / d);
e = c * t;
f = a * t;
很差的代码:
float a, b, c, e, f;
。。。
e = a / c;
f = b / c;
推荐的代码:
float a, b, c, e, f;
。。。
const float t(1.0f / c);
e = a * t;
f = b * t;
4、结构体成员的布局
不少编译器有“使结构体字,双字或四字对齐”的选项。可是,仍是须要改善结构体成员的对齐,有些编译器可能分配给结构体成员空间的顺序与他们声明的不一样。可是,有些编译器并不提供这些功能,或者效果很差。因此,要在付出最少代价的状况下实现最好的结构体和结构体成员对齐,建议采起下列方法:
(1)按数据类型的长度排序
把结构体的成员按照它们的类型长度排序,声明成员时把长的类型放在短的前面。编译器要求把长型数据类型存放在偶数地址边界。在申明一个复杂的数据类型 (既有多字节数据又有单字节数据) 时,应该首先存放多字节数据,而后再存放单字节数据,这样能够避免内存的空洞。编译器自动地把结构的实例对齐在内存的偶数边界。
(2)把结构体填充成最长类型长度的整倍数
把结构体填充成最长类型长度的整倍数。照这样,若是结构体的第一个成员对齐了,全部整个结构体天然也就对齐了。下面的例子演示了如何对结构体成员进行从新排序:
很差的代码,普通顺序:
struct
{
char a[5];
long k;
double x;
} baz;
推荐的代码,新的顺序并手动填充了几个字节:
struct
{
double x;
long k;
char a[5];
char pad[7];
} baz;
这个规则一样适用于类的成员的布局。
(3)按数据类型的长度排序本地变量
当编译器分配给本地变量空间时,它们的顺序和它们在源代码中声明的顺序同样,和上一条规则同样,应该把长的变量放在短的变量前面。若是第一个变量对齐了,其它变量就会连续的存放,并且不用填充字节天然就会对齐。有些编译器在分配变量时不会自动改变变量顺序,有些编译器不能产生4字节对齐的栈,因此4字节可能不对齐。下面这个例子演示了本地变量声明的从新排序:
很差的代码,普通顺序
short ga, gu, gi;
long foo, bar;
double x, y, z[3];
char a, b;
float baz;
推荐的代码,改进的顺序
double z[3];
double x, y;
long foo, bar;
float baz;
short ga, gu, gi;
(4)把频繁使用的指针型参数拷贝到本地变量
避免在函数中频繁使用指针型参数指向的值。由于编译器不知道指针之间是否存在冲突,因此指针型参数每每不能被编译器优化。这样数据不能被存放在寄存器中,并且明显地占用了内存带宽。注意,不少编译器有“假设不冲突”优化开关(在VC里必须手动添加编译器命令行/Oa或/Ow),这容许编译器假设两个不一样的指针老是有不一样的内容,这样就不用把指针型参数保存到本地变量。不然,请在函数一开始把指针指向的数据保存到本地变量。若是须要的话,在函数结束前拷贝回去。
很差的代码:
// 假设 q != r
void isqrt(unsigned long a, unsigned long* q, unsigned long* r)
{
*q = a;
if (a > 0)
{
while (*q > (*r = a / *q))
{
*q = (*q + *r) >> 1;
}
}
*r = a - *q * *q;
}
推荐的代码:
// 假设 q != r
void isqrt(unsigned long a, unsigned long* q, unsigned long* r)
{
unsigned long qq, rr;
qq = a;
if (a > 0)
{
while (qq > (rr = a / qq))
{
qq = (qq + rr) >> 1;
}
}
rr = a - qq * qq;
*q = qq;
*r = rr;
}
5、循环优化
(1)、充分分解小的循环
要充分利用CPU的指令缓存,就要充分分解小的循环。特别是当循环体自己很小的时候,分解循环能够提升性能。注意:不少编译器并不能自动分解循环。 很差的代码:
// 3D转化:把矢量 V 和 4x4 矩阵 M 相乘
for (i = 0; i < 4; i ++)
{
r[i] = 0;
for (j = 0; j < 4; j ++)
{
r[i] += M[j][i]*V[j];
}
}
推荐的代码:
r[0] = M[0][0]*V[0] + M[1][0]*V[1] + M[2][0]*V[2] + M[3][0]*V[3];
r[1] = M[0][1]*V[0] + M[1][1]*V[1] + M[2][1]*V[2] + M[3][1]*V[3];
r[2] = M[0][2]*V[0] + M[1][2]*V[1] + M[2][2]*V[2] + M[3][2]*V[3];
r[3] = M[0][3]*V[0] + M[1][3]*V[1] + M[2][3]*V[2] + M[3][3]*v[3];
(2)、提取公共部分
对于一些不须要循环变量参加运算的任务能够把它们放到循环外面,这里的任务包括表达式、函数的调用、指针运算、数组访问等,应该将没有必要执行屡次的操做所有集合在一块儿,放到一个init的初始化程序中进行。
(3)、延时函数
一般使用的延时函数均采用自加的形式:
void delay (void)
{
unsigned int i;
for (i=0;i<1000;i++) ;
}
将其改成自减延时函数:
void delay (void)
{
unsigned int i;
for (i=1000;i>0;i--) ;
}
两个函数的延时效果类似,但几乎全部的C编译对后一种函数生成的代码均比前一种代码少1~3个字节,由于几乎全部的MCU均有为0转移的指令,采用后一种方式可以生成这类指令。在使用while循环时也同样,使用自减指令控制循环会比使用自加指令控制循环生成的代码更少1~3个字母。可是在循环中有经过循环变量“i”读写数组的指令时,使用预减循环有可能使数组超界,要引发注意。
(4)、while循环和do…while循环
用while循环时有如下两种循环形式:
unsigned int i;
i=0;
while (i<1000)
{
i++;
//用户程序
}
或:
unsigned int i;
i=1000;
do
{
i--;
//用户程序
}
while (i>0);
在这两种循环中,使用do…while循环编译后生成的代码的长度短于while循环。
(6)、循环展开
这是经典的速度优化,但许多编译程序(如gcc -funroll-loops)能自动完成这个事,因此如今你本身来优化这个显得效果不明显。
旧代码:
for (i = 0; i < 100; i++)
{
do_stuff(i);
}
新代码:
for (i = 0; i < 100; )
{
do_stuff(i); i++;
do_stuff(i); i++;
do_stuff(i); i++;
do_stuff(i); i++;
do_stuff(i); i++;
do_stuff(i); i++;
do_stuff(i); i++;
do_stuff(i); i++;
do_stuff(i); i++;
do_stuff(i); i++;
}
能够看出,新代码里比较指令由100次下降为10次,循环时间节约了90%。不过注意:对于中间变量或结果被更改的循环,编译程序每每拒绝展开,(怕担责任呗),这时候就须要你本身来作展开工做了。
还有一点请注意,在有内部指令cache的CPU上(如MMX芯片),由于循环展开的代码很大,每每cache溢出,这时展开的代码会频繁地在CPU 的cache和内存之间调来调去,又由于cache速度很高,因此此时循环展开反而会变慢。还有就是循环展开会影响矢量运算优化。
(6)、循环嵌套
把相关循环放到一个循环里,也会加快速度。
旧代码:
for (i = 0; i < MAX; i++) /* initialize 2d array to 0's */
for (j = 0; j < MAX; j++)
a[i][j] = 0.0;
for (i = 0; i < MAX; i++) /* put 1's along the diagonal */
a[i][i] = 1.0;
新代码:
for (i = 0; i < MAX; i++) /* initialize 2d array to 0's */
{
for (j = 0; j < MAX; j++)
a[i][j] = 0.0;
a[i][i] = 1.0; /* put 1's along the diagonal */
}
(7)、Switch语句中根据发生频率来进行case排序
Switch 可能转化成多种不一样算法的代码。其中最多见的是跳转表和比较链/树。当switch用比较链的方式转化时,编译器会产生if-else-if的嵌套代码,并按照顺序进行比较,匹配时就跳转到知足条件的语句执行。因此能够对case的值依照发生的可能性进行排序,把最有可能的放在第一位,这样能够提升性能。此外,在case中推荐使用小的连续的整数,由于在这种状况下,全部的编译器均可以把switch 转化成跳转表。
很差的代码:
int days_in_month, short_months, normal_months, long_months;
。。。。。。
switch (days_in_month)
{
case 28:
case 29:
short_months ++;
break;
case 30:
normal_months ++;
break;
case 31:
long_months ++;
break;
default:
cout << "month has fewer than 28 or more than 31 days" << endl;
break;
}
推荐的代码:
int days_in_month, short_months, normal_months, long_months;
。。。。。。
switch (days_in_month)
{
case 31:
long_months ++;
break;
case 30:
normal_months ++;
break;
case 28:
case 29:
short_months ++;
break;
default:
cout << "month has fewer than 28 or more than 31 days" << endl;
break;
}
(8)、将大的switch语句转为嵌套switch语句
当switch语句中的case标号不少时,为了减小比较的次数,明智的作法是把大switch语句转为嵌套switch语句。把发生频率高的case 标号放在一个switch语句中,而且是嵌套switch语句的最外层,发生相对频率相对低的case标号放在另外一个switch语句中。好比,下面的程序段把相对发生频率低的状况放在缺省的case标号内。
pMsg=ReceiveMessage();
switch (pMsg->type)
{
case FREQUENT_MSG1:
handleFrequentMsg();
break;
case FREQUENT_MSG2:
handleFrequentMsg2();
break;
。。。。。。
case FREQUENT_MSGn:
handleFrequentMsgn();
break;
default: //嵌套部分用来处理不常常发生的消息
switch (pMsg->type)
{
case INFREQUENT_MSG1:
handleInfrequentMsg1();
break;
case INFREQUENT_MSG2:
handleInfrequentMsg2();
break;
。。。。。。
case INFREQUENT_MSGm:
handleInfrequentMsgm();
break;
}
}
若是switch中每一种状况下都有不少的工做要作,那么把整个switch语句用一个指向函数指针的表来替换会更加有效,好比下面的switch语句,有三种状况:
enum MsgType{Msg1, Msg2, Msg3}
switch (ReceiveMessage()
{
case Msg1;
。。。。。。
case Msg2;
。。。。。
case Msg3;
。。。。。
}
为了提升执行速度,用下面这段代码来替换这个上面的switch语句。
/*准备工做*/
int handleMsg1(void);
int handleMsg2(void);
int handleMsg3(void);
/*建立一个函数指针数组*/
int (*MsgFunction [])()={handleMsg1, handleMsg2, handleMsg3};
/*用下面这行更有效的代码来替换switch语句*/
status=MsgFunction[ReceiveMessage()]();
(9)、循环转置
有些机器对JNZ(为0转移)有特别的指令处理,速度很是快,若是你的循环对方向不敏感,能够由大向小循环。
旧代码:
for (i = 1; i <= MAX; i++)
{
。。。
}
新代码:
i = MAX+1;
while (--i)
{
。。。
}
不过千万注意,若是指针操做使用了i值,这种方法可能引发指针越界的严重错误(i = MAX+1;)。固然你能够经过对i作加减运算来纠正,可是这样就起不到加速的做用,除非相似于如下状况:
旧代码:
char a[MAX+5];
for (i = 1; i <= MAX; i++)
{
*(a+i+4)=0;
}
新代码:
i = MAX+1;
while (--i)
{
*(a+i+4)=0;
}
(10)、公用代码块
一些公用处理模块,为了知足各类不一样的调用须要,每每在内部采用了大量的if-then-else结构,这样很很差,判断语句若是太复杂,会消耗大量的时间的,应该尽可能减小公用代码块的使用。(任何状况下,空间优化和时间优化都是对立的--东楼)。固然,若是仅仅是一个(3==x)之类的简单判断,适当使用一下,也仍是容许的。记住,优化永远是追求一种平衡,而不是走极端。
(11)提高循环的性能
要提高循环的性能,减小多余的常量计算很是有用(好比,不随循环变化的计算)。
很差的代码(在for()中包含不变的if()):
for( i 。。。 )
{
if( CONSTANT0 )
{
DoWork0( i ); // 假设这里不改变CONSTANT0的值
}
else
{
DoWork1( i ); // 假设这里不改变CONSTANT0的值
}
}
推荐的代码:
if( CONSTANT0 )
{
for( i 。。。 )
{
DoWork0( i );
}
}
else
{
for( i 。。。 )
{
DoWork1( i );
}
}
若是已经知道if()的值,这样能够避免重复计算。虽然很差的代码中的分支能够简单地预测,可是因为推荐的代码在进入循环前分支已经肯定,就能够减小对分支预测的依赖。
(12)、选择好的无限循环
在编程中,咱们经常须要用到无限循环,经常使用的两种方法是while (1) 和 for (;;)。这两种方法效果彻底同样,但那一种更好呢?然咱们看看它们编译后的代码:
编译前:
while (1);
编译后:
mov eax,1
test eax,eax
je foo+23h
jmp foo+18h
编译前:
for (;;);
编译后:
jmp foo+23h
显然,for (;;)指令少,不占用寄存器,并且没有判断、跳转,比while (1)好。
6、提升CPU的并行性
(1)使用并行代码
尽量把长的有依赖的代码链分解成几个能够在流水线执行单元中并行执行的没有依赖的代码链。不少高级语言,包括C++,并不对产生的浮点表达式从新排序,由于那是一个至关复杂的过程。须要注意的是,重排序的代码和原来的代码在代码上一致并不等价于计算结果一致,由于浮点操做缺少精确度。在一些状况下,这些优化可能致使意料以外的结果。幸运的是,在大部分状况下,最后结果可能只有最不重要的位(即最低位)是错误的。
很差的代码:
double a[100], sum;
int i;
sum = 0.0f;
for (i=0; i<100; i++)
sum += a[i];
推荐的代码:
double a[100], sum1, sum2, sum3, sum4, sum;
int i;
sum1 = sum2 = sum3 = sum4 = 0.0;
for (i = 0; i < 100; i += 4)
{
sum1 += a[i];
sum2 += a[i+1];
sum3 += a[i+2];
sum4 += a[i+3];
}
sum = (sum4+sum3)+(sum1+sum2);
要注意的是:使用4路分解是由于这样使用了4段流水线浮点加法,浮点加法的每个段占用一个时钟周期,保证了最大的资源利用率。
(2)避免没有必要的读写依赖
当数据保存到内存时存在读写依赖,即数据必须在正确写入后才能再次读取。虽然AMD Athlon等CPU有加速读写依赖延迟的硬件,容许在要保存的数据被写入内存前读取出来,可是,若是避免了读写依赖并把数据保存在内部寄存器中,速度会更快。在一段很长的又互相依赖的代码链中,避免读写依赖显得尤为重要。若是读写依赖发生在操做数组时,许多编译器不能自动优化代码以免读写依赖。因此推荐程序员手动去消除读写依赖,举例来讲,引进一个能够保存在寄存器中的临时变量。这样能够有很大的性能提高。下面一段代码是一个例子:
很差的代码:
float x[VECLEN], y[VECLEN], z[VECLEN];
。。。。。。
for (unsigned int k = 1; k < VECLEN; k ++)
{
x[k] = x[k-1] + y[k];
}
for (k = 1; k <VECLEN; k++)
{
x[k] = z[k] * (y[k] - x[k-1]);
}
推荐的代码:
float x[VECLEN], y[VECLEN], z[VECLEN];
。。。。。。
float t(x[0]);
for (unsigned int k = 1; k < VECLEN; k ++)
{
t = t + y[k];
x[k] = t;
}
t = x[0];
for (k = 1; k <; VECLEN; k ++)
{
t = z[k] * (y[k] - t);
x[k] = t;
}
7、循环不变计算
对于一些不须要循环变量参加运算的计算任务能够把它们放到循环外面,如今许多编译器仍是能本身干这件事,不过对于中间使用了变量的算式它们就不敢动了,因此不少状况下你还得本身干。对于那些在循环中调用的函数,凡是不必执行屡次的操做统统提出来,放到一个init函数里,循环前调用。另外尽可能减小喂食次数,不必的话尽可能不给它传参,须要循环变量的话让它本身创建一个静态循环变量本身累加,速度会快一点。
还有就是结构体访问,东楼的经验,凡是在循环里对一个结构体的两个以上的元素执行了访问,就有必要创建中间变量了(结构这样,那C++的对象呢?想一想看),看下面的例子:
旧代码:
total =
a->b->c[4]->aardvark +
a->b->c[4]->baboon +
a->b->c[4]->cheetah +
a->b->c[4]->dog;
新代码:
struct animals * temp = a->b->c[4];
total =
temp->aardvark +
temp->baboon +
temp->cheetah +
temp->dog;
一些老的C语言编译器不作聚合优化,而符合ANSI规范的新的编译器能够自动完成这个优化,看例子:
float a, b, c, d, f, g;
。。。
a = b / c * d;
f = b * g / c;
这种写法固然要得,可是没有优化
float a, b, c, d, f, g;
。。。
a = b / c * d;
f = b / c * g;
若是这么写的话,一个符合ANSI规范的新的编译器能够只计算b/c一次,而后将结果代入第二个式子,节约了一次除法运算。
8、函数优化
(1)Inline函数
在C++中,关键字Inline能够被加入到任何函数的声明中。这个关键字请求编译器用函数内部的代码替换全部对于指出的函数的调用。这样作在两个方面快于函数调用:第一,省去了调用指令须要的执行时间;第二,省去了传递变元和传递过程须要的时间。可是使用这种方法在优化程序速度的同时,程序长度变大了,所以须要更多的ROM。使用这种优化在Inline函数频繁调用而且只包含几行代码的时候是最有效的。
(2)不定义不使用的返回值
函数定义并不知道函数返回值是否被使用,假如返回值历来不会被用到,应该使用void来明确声明函数不返回任何值。
(3)减小函数调用参数
使用全局变量比函数传递参数更加有效率。这样作去除了函数调用参数入栈和函数完成后参数出栈所须要的时间。然而决定使用全局变量会影响程序的模块化和重入,故要慎重使用。
(4)全部函数都应该有原型定义
通常来讲,全部函数都应该有原型定义。原型定义能够传达给编译器更多的可能用于优化的信息。
(5)尽量使用常量(const)
尽量使用常量(const)。C++ 标准规定,若是一个const声明的对象的地址不被获取,容许编译器不对它分配储存空间。这样可使代码更有效率,并且能够生成更好的代码。
(6)把本地函数声明为静态的(static)
若是一个函数只在实现它的文件中被使用,把它声明为静态的(static)以强制使用内部链接。不然,默认的状况下会把函数定义为外部链接。这样可能会影响某些编译器的优化——好比,自动内联。
9、采用递归
与LISP之类的语言不一样,C语言一开始就病态地喜欢用重复代码循环,许多C程序员都是除非算法要求,坚定不用递归。事实上,C编译器们对优化递归调用一点都不反感,相反,它们还很喜欢干这件事。只有在递归函数须要传递大量参数,可能形成瓶颈的时候,才应该使用循环代码,其余时候,仍是用递归好些。
10、变量
(1)register变量
在声明局部变量的时候可使用register关键字。这就使得编译器把变量放入一个多用途的寄存器中,而不是在堆栈中,合理使用这种方法能够提升执行速度。函数调用越是频繁,越是可能提升代码的速度。
在最内层循环避免使用全局变量和静态变量,除非你能肯定它在循环周期中不会动态变化,大多数编译器优化变量都只有一个办法,就是将他们置成寄存器变量,而对于动态变量,它们干脆放弃对整个表达式的优化。尽可能避免把一个变量地址传递给另外一个函数,虽然这个还很经常使用。C语言的编译器们老是先假定每个函数的变量都是内部变量,这是由它的机制决定的,在这种状况下,它们的优化完成得最好。可是,一旦一个变量有可能被别的函数改变,这帮兄弟就不再敢把变量放到寄存器里了,严重影响速度。看例子:
a = b();
c(&d);
由于d的地址被c函数使用,有可能被改变,编译器不敢把它长时间的放在寄存器里,一旦运行到c(&d),编译器就把它放回内存,若是在循环里,会形成N次频繁的在内存和寄存器之间读写d的动做,众所周知,CPU在系统总线上的读写速度慢得很。好比你的赛杨300,CPU主频300,总线速度最多66M,为了一个总线读,CPU可能要等4-5个周期,得。。得。。得。。想起来都打颤。
(2)、同时声明多个变量优于单独声明变量
(3)、短变量名优于长变量名,应尽可能使变量名短一点
(4)、在循环开始前声明变量
11、使用嵌套的if结构
在if结构中若是要判断的并列条件较多,最好将它们拆分红多个if结构,而后嵌套在一块儿,这样能够避免无谓的判断。
说明:
上面的优化方案由王全明收集整理。不少资料来源与网上,出处不祥,在此对全部做者一并致谢!
该方案主要是考虑到在嵌入式开发中对程序执行速度的要求特别高,因此该方案主要是为了优化程序的执行速度。
注意:优化是有侧重点的,优化是一门平衡的艺术,它每每要以牺牲程序的可读性或者增长代码长度为代价。
|