C6000点滴学习：c6000系列的C代码优化(六)

发表于 2016-3-31 13:52

十一、copy程序的优化
1、源代码：

Word16 i;
for (i = 0; i < L; i++)
{
y = x;
}

复制代码

2、改编代码：
（1）要求数组长度能被 2 整除

Word32 i;
Word32 temp;
int *p1 = (int *)&x[0];
int *q1 = (int *)&y[0];
for (i = 0; i < L/2; i++)
{
temp = *p1++;
*q1++ = temp;
}

复制代码
（2）要求数组长度能被 4 整除

Word32 i;
Word32 temp1, temp2;
Word32 *pin1, *pin2, *pout1, *pout2;
pin1 = (Word32 *)&x[0];
pin2 = (Word32 *)&x[2];
pout1= (Word32 *)&y[0];
pout2= (Word32 *)&y[2];
for (i = 0; i < L/4; i++)
{
temp1 = *pin1;
temp2 = *pin2;
pin1+=2;
pin2+=2;
*pout1= temp1;
*pout2= temp2;
pout1+=2;
pout2+=2;
}

复制代码
   3、优化方法说明：
      把一次循  拷贝一个 word16 的数改为一次循环拷贝 2 个 word16 或4 个 word16 的数。
      4、技巧：
      充分利用 c6xx 一次读取32 位数的特性，并利用一个指令周期能读取两个数据的特点。
      十二、set_zero 程序的优化
      1、源代码：

Word16 i;
for (i = 0; i < L; i++)
{
x = 0;
}

复制代码
2、改编代码：
（1）数组长度能被 2 整除

Word32 i;
int *x1 = (int *)&x[0];
for (i = 0; i < L/2; i++)
{
*x1++ = 0;
}

复制代码
（2）数组长度能被 4 整除

Word32 i;
int *x1 = (int *)&x[0];
int *x2 = (int *)&x[2];
for (i = 0; i < L/4; i++)
{
*x1 = 0;
*x2 = 0;
x1++;
x2++;
x1++;
x2++;
}

复制代码
   3、优化方法说明：
      把一次循环为一个 word16 的数赋值改为一次为 2个或 4 个 word16 的数赋值。
      4、技巧：
      充分利用C6XX一次读取32位数的特点，并利用一个指令周期能读取两个数据的特点。
      十三、32bit数与 16bit 数相乘
      1、源代码：

L_tmp0 = Mac_32_16(L_32, hi1, lo1, lo2);

复制代码
2、改编代码：

L_tmp0=_sadd(_sadd(_smpyhl(hl32, lo2),
(_mpyus(hl32, lo2)>>16)<<1), L_32);

复制代码
   3、优化方法说明：
      hl32 是32bit 的数， hi1 和 lo1 是 16bit的数，且  hl32 = hi1<<16 + lo1 << 1  ，即 hi1 和 lo1分别是 hl32的高 16 位数和低 16 位数。函数 Mac_32_16(L_32, hi1, lo1, lo2)实现  L_32 = L_32 + (hi1*lo2)<<1 + ((lo1*lo2)>>15)<<1
      源代码是把一个 32 位的数拆成两个 16 位的数与一个 16 位的数相乘，优化后的代码不拆开 32 位的数，直接用 32 位的数与16 位的数相乘。运用这种方法必须保证 hl32 的最低一位数必须为 0，否则应用指令_clr(hl32, 0, 0)把最低位清零。
      4、技巧：
      源代码中的低 16 位数 lo1 是hl32 的低16 位右移一位得到的（留出一位符号位）。在与lo2 相乘时又右移了 15 位，所以在改编代码中右移 16 位，并且是以无符号数与 lo2 相乘。
      十四、32bit数与 32bit 数相乘
      1、源代码：

L_tmp = Mac_32 (L_32, hi1, lo1, hi2, lo2);

复制代码
2、改编代码：

L_tmp = _sadd(_sadd(_smpyh(hl1_32, hl2_32),
((_mpyhslu(hl1_32, hl2_32)>>16)<<1)+((_mpyhslu(hl2_32, hl1_32)>>16)<<1)), L_32);

复制代码
3、优化方法说明：
两个 32位的数相乘，不必分成四个 16 位的数相乘，直接用 32 位相乘。其中：

hl1_32 = hi1<<16 + lo1<<1, hl2_32 = hi2 <<16 + lo2 <<1 。

复制代码
源代码实现：

L_32 = L_32 + (hi1*hi2)<<1 + ( (hi1*lo2)>>15 + (lo1*hi2)>>15) <<1

复制代码
4、技巧：
低 16 位与高16 位相乘时，低 16 位使用的是无符号数。

发表于 2016-4-1 17:54

copy程序还是很常用的

C6000点滴学习：c6000系列的C代码优化(六)

相关帖子

浏览过的版块