现在如果实现比较复杂的系统不做dsp程序的优化是肯定不行的。DSP程序的优化方法有很多,网上也有很多资料,但是以实际的经验来看很多人都没有把握关键的地方,如果是复杂算法的话DSP优化的第一步应该是存储器优化,也就是说利用ping-pong buffer技术将待处理的数据分批的搬运到片内存储器中,在这个工程中要结合片内资源,设计好数据结构,并一定要考虑让数据对齐。存储器优化是 program optimization 文档中没有提及,而是在一个叫Cache user guide 文档中说明,所以这样就造成很多人不知道原因。在完成存储器优化之后就是program optimization 文档中所讲的方法,-o3,数据打包,inline,循环展开,汇编等等。
做优化的过程中一定要保证优化之前和之后的处理结果正确性,也就是说优化不能导致错误的发生,然后在尽量提高时间。
关于优化后函数运行时间的测量TI的有个文档里面有教你怎么测,就是利用定时器来测量函数运行的时间,另外对于运行时间本来就只有几百个cycle的短小汇编函数也可以利用ccs 的clock功能来测时间。
总之程序优化就是一项耗时间的体力活,哈哈!
这部分的参考资料可以查看
(1) program optimization guide
(2) cache user guide |