DSP开发中,测量某个函数或某段代码的cycles消耗是经常要做的事情,常用的profiling和clock()一般在simulation下使用,真正到了板子上做emulation时,因为要考虑到数据和被测code在板子上的存放位置和读取时间,用这种方法测结果就不那么可靠了。其实在c64x+ core上有两个计数寄存器TSCL/TSCH,它们与CPU同频,共同表示一个64-bit数,CPU运行一个cycle,该寄存器就加1,因此可以用它们来准确的测量cpu在某个执行段中消耗的cycles。一般我们只会用到TSCL这个寄存器,594MHz下,32-bit可以测试到7s,而TSCH是高32位,除非测试整个工程,一般用不到它。
具体使用时:
首先将被测函数通过Link指定到L1P,将用到的数据指定到L1D,这样做的目的是消除代码执行时的数据和指令搬移时间(否则测出来的时间包含数据和指令从片外到片内的搬移时间)
然后在被测函数或代码前对TSCL执行写操作,将寄存器A0写入TSCL,对之做初始化,即启动计数;
最后在函数结束处或被测代码段后读取TSCL寄存器的值,读取的值即为该函数或代码段消耗的cpu cycles。
切记每次测试前必须重启CPU,因为计数器只有在两个条件下才会停止计数,不能通过编程来使之停止计数:
a. 退出reset状态,即重启后
b. CPU完全powered down
总的来说,因为这两个寄存器是core内部的寄存器,与cpu同频,用它来测时间,是非常准的,甚至已经考虑到压缩指令包fpread声明的消耗(1cycle),特别是测试手写汇编时更有效,甚至可以清楚的看出一个指令延时了多少个cycles。
使用方法:长时间宽范围时钟测定
unsigned long long t1,t2;
t1=_itoll(TSCH,TSCL);
code_wait_test;
t2=_itoll(TSCH,TSCL);
printf(“#cycle=%d”,t2-t1);
短时间(7秒)窄范围时钟测定:
T1=TSCL;
…process code …
T2=TSCL;
Printf(“#cycle=%d”,t2-t1);
|