打印
[ARM入门]

嵌入式代码优化技巧--循环展开

[复制链接]
384|0
手机看帖
扫描二维码
随时随地手机跟帖
跳转到指定楼层
楼主
呐咯密密|  楼主 | 2024-3-25 10:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

有时候,可以牺牲一点代码的简洁度、减少循环控制语句的执行频率以提高性能。

无依赖的循环展开:

process(array[0]);
process(array[1]);
process(array[2]);
process(array[3]);

优于:

for (int i = 0; i < 4; i++) 
{
    process(array[i]);
}

有依赖的循环展开:

long calc_sum(int *a, int *b)
{
long sum0 = 0;
long sum1 = 0;
long sum2 = 0;
long sum3 = 0;

for (int i = 0; i < 250; i += 4)
{
  sum0 += arr0[i + 0] * arr1[i + 0];
  sum1 += arr0[i + 1] * arr1[i + 1];
  sum2 += arr0[i + 2] * arr1[i + 2];
  sum3 += arr0[i + 3] * arr1[i + 3];
}

return (sum0 + sum1 + sum2 + sum3);
}

优于:

long calc_sum(int *a, int *b)
{
long sum = 0;

for (int i = 0; i < 1000; i ++)
{
  sum += arr0[i] * arr1[i];
}

return sum;
}

尽可能把长的有依赖的代码链分解成几个可以在流水线执行单元中并行执行的没有依赖的代码链,提高流水线的连续性。通常4次展开为最佳方式。


使用特权

评论回复

相关帖子

发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则

认证:苏州澜宭自动化科技嵌入式工程师
简介:本人从事磁编码器研发工作,负责开发2500线增量式磁编码器以及17位、23位绝对值式磁编码器,拥有多年嵌入式开发经验,精通STM32、GD32、N32等多种品牌单片机,熟练使用单片机各种外设。

351

主题

2775

帖子

40

粉丝