我有10年以上的dsp和各种cpu开发经验。长期做TI,ADI,PHILIPS,ARM,X86的汇编优化,对最新的arm coretex-a8发表一些纯技术看法,希望大家指正。
开始讨论之前,先发几个内核的结构图: 首先是TI最经典的C64,C64+内核。 总结下对优化影响最大的特点: .最多8指令并行,一般我们可以优化到5-6指令并行,很少能做到8条。 .2条128位的数据存取通道,属于8指令并行一部分。数据存取速度是本帖所有dsp里面最强的。 .128个通用寄存器,口水啊,加速全靠它了。 .指令是条件执行的,可以减少跳转。(ARM系列的特色,呵呵呵) .其他dsp的通用特征,比如单周期,simd,无开销循环等 |