打印

DSP芯片的定点运算

[复制链接]
3544|10
手机看帖
扫描二维码
随时随地手机跟帖
跳转到指定楼层
楼主
dgun|  楼主 | 2011-12-29 16:36 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
                                 
一  数的定标
    在定点DSP芯片中采用定点数进行数值运算,其操作数一般采用整型数来表示。一个整型数的最大表示范围取决于DSP芯片所给定的字长,一般为16位或24位。字长越长,所能表示的数的范围越大,精度也越高。以16位字长为例。

DSP芯片的数以2的补码形式表示。每个16位数用一个符号位来表示数的正负,0表示数值为正,l则表示数值为负。其余15位表示数值的大小。
例:   二进制数0010000000000011b=8195
         二进制数1111111111111100b= -4

        对DSP芯片而言,参与数值运算的数就是16位的整型数。但在许多情况下,数**算过程中的数不一定都是整数。那么,DSP芯片是如何处理小数的呢?其中的关键就是由程序员来确定一个数的小数点处于16位中的哪一位。这就是数的定标。通过设定小数点在16位数中的不同位置,就可以表示不同大小和不同精度的小数了。数的定标有Q表示法和S表示法两种。表1.1列出了一个16位数的16种Q表示、S表示及它们所能表示的十进制数值范围。
    从表1.1可以看出,同样一个16位数,若小数点设定的位置不同,它所表示的数也就不同。例如,
         16进制数2000H=8192,用Q0表示
         16进制数2000H=0.25,用Q15表示
但对于DSP芯片来说,处理方法是完全相同的。
     从表1.1还可以看出,不同的Q所表示的数不仅范围不同,而且精度也不相同。
Q越大,数值范围越小,但精度越高;相反,Q越小,数值范围越大,但精度就越低。例如,Q0 的数值范围是一32768到+32767,其精度为1,而Q15的数值范围为-1到0.9999695,精度为1/32768=0.00003051。因此,对定点数而言,数值范围与精度是一对矛盾,一个变量要想能够表示比较大的数值范围,必须以牺牲精度为代价;而想精度提高,则数的表示范围就相应地减小。在实际的定点算法中,为了达到最佳的性能,必须充分考虑到这一点。
浮点数与定点数的转换关系可表示为:
        浮点数(x)转换为定点数(xq):xq=( int ) x *  2^ Q
        定点数(xq)转换为浮点数(x):x=( float )xq * 2^ -Q

     例如,浮点数x=0.5,定标Q=15,则定点数xq=L 0.5*32768 J=16384,式中LJ表示下取整。反之,一个用Q=15表示的定点数 16384,其浮点数为16384 * 2^ -15=16384/32768=0.5。浮点数转换为定点数时,为了降低截尾误差,在取整前可以先加上0.5。

       浮点数(x)转换为定点数(xq):xq=( int )( x *  2^ Q + 0.5)


                                                   
表1.1
Q
表示、S表示及数值范围



Q表示
S表示
十进制数表示范围
Q15
S0.15
-1X0.9999695
Q14
S1.14
-2X1.9999390
Q13
S2.13
-4X3.9998779
Q12
S3.12
-8X7.9997559
Q11
S4.11
-16X15.9995117
Q10
S5.10
-32X31.9990234
Q9
S6.9
-64X63.9980469
Q8
S7.8
-128X127.9960938
Q7
S8.7
-256X255.9921875
Q6
S9.6
-512X511.9804375
Q5
S10.5
-1024X1023.96875
Q4
S11.4
-2048X2047.9375
Q3
S12.3
-4096X4095.875
Q2
S13.2
-8192X8191.75
Q1
S14.1
-16384X16383.5
Q0
S15.0
-32768X32767

相关帖子

沙发
dgun|  楼主 | 2011-12-29 16:37 | 只看该作者
二 高级语言:从浮点到定点
    我们在编写DSP模拟算法时,为了方便,一般都是采用高级语言(如C语言)来编写模拟程序。程序中所用的变量一般既有整型数,又有浮点数。如例1.1程序中的变量i是整型数,而pi是浮点数,hamwindow则是浮点数组。
例1.1  256点汉明窗计算
int i;+
float pi=3.14l59;
float hamwindow[256];
for(i=0;i<256;i++)  hamwindow[i]=0.54-0.46*cos(2.0*pi*i/255);
     如果我们要将上述程序用某种定点DSP芯片来实现,则需将上述程序改写为DSP芯片的汇编语言程序。为了DSP程序调试的方便及模拟定点DSP实现时的算法性能,在编写DSP汇编程序之前一般需将高级语言浮点算法改写为高级语言定点算法。下面我们讨论基本算术运算的定点实现方法。



2.1  加法/减法运算的C语言定点摸拟

设浮点加法运算的表达式为:
float x,y,z;
z=x+y;
将浮点加法/减法转化为定点加法/减法时最重要的一点就是必须保证两个操作数的定标
temp=x+temp;
z=temp>>(Qx-Qz),若Qx>=Qz
z=temp<<(Qz-Qx),若Qx<=Qz
例1.4结果超过16位的定点加法
设x=l5000,y=20000,则浮点运算值为z=x+y=35000,显然z>32767,因此
Qx=1,Qy=0,Qz=0,则定点加法为:
x=30000;y=20000;
temp=20000<<1=40000;
temp=temp+x=40000+30000=70000;
z=70000L>>1=35000;
     因为z的Q值为0,所以定点值z=35000就是浮点值,这里z是一个长整型数。当加法或加法的结果超过16位表示范围时,如果程序员事先能够了解到这种情况,并且需要保持运算精度时,则必须保持32位结果。如果程序中是按照16位数进行运算的,则超过16位实际上就是出现了溢出。如果不采取适当的措施,则数据溢出会导致运算精度的严重恶化。一般的定点DSP芯片都没有溢出保护功能,当溢出保护功能有效时,一旦出现溢出,则累加器ACC的结果为最大的饱和值(上溢为7FFFH,下溢为8001H),从而达到防止溢出引起精度严重恶化的目的。


2.2乘法运算的C语言定点模拟


设浮点乘法运算的表达式为:
float x,y,z;
z=xy;
假设经过统计后x的定标值为Qx,y的定标值为Qy,乘积z的定标值为Qz,则
z=xy
zq*2 ^ -Qx=xq * yq * 2 ^ -(Qx+Qy)
zq=(xq yq)2 ^ Qz-(Qx+Qy)
所以定点表示的乘法为:
int  x,y,z;
long temp;
temp=(long)x;
z=(temp*y)>>(Qx+Qy-Qz);
例1.5定点乘法。
设x=18.4,y=36.8,则浮点运算值为=18.4*36.8=677.12;
根据上节,得Qx=10,Qy=9,Qz=5,所以
x=18841;y=18841;
temp=18841L;
z=(18841L*18841)>>(10+9-5)=354983281L>>14=21666;
因为z的定标值为5,故定点z=21666,即为浮点的z=21666/32=677.08。

使用特权

评论回复
板凳
dgun|  楼主 | 2011-12-29 16:37 | 只看该作者
2.3除法运算的C语言定点摸拟


设浮点除法运算的表达式为:
float x,y,z;
z=x/y;
假设经过统计后被除数x的定标值为Qx,除数y的定标值为Qy,商z的定标值为Qz,则
z=x/y
zq * 2 ^ -Qz=(xq * 2^-Qx ) / (yq*2^-Qy)
zq=(xq*2^(Qz-Qx+Qy)) / yq
所以定点表示的除法为:
int x,y,z;
long temp;
temp=(long)x;
z=(temp<<(Qz-Qx+Qy)) / y;
例1.6定点除法。
设x=18.4,y=36.8,浮点运算值为z=x/y=18.4/36.8=0.5;
根据上节,得Qx=10,Qy=9,Qz=15;所以有
z=18841,y=18841;
temp=(long)18841;
z=(18841L<<(15-10+9)/18841=3O8690944L/18841=16384;
因为商z的定标值为15,所以定点z=16384,即为浮点z=16384/215=0.5。


2.4程序变量的Q值确定

     在前面几节介绍的例子中,由于x,y,z的值都是已知的,因此从浮点变为定点时Q值很好确定。在实际的DSP应用中,程序中参与运算的都是变量,那么如何确定浮点程序中变量的Q值呢?从前面的分析可以知道,确定变量的Q值实际上就是确定变量的动态范围,动态范围确定了,则Q值也就确定了。
设变量的绝对值的最大值为|max|,注意|max|必须小于或等于32767。取一个整数n,使满足:2n-1<|max|<2n
则有:2^-Q=2^-15 * 2n=2^-(15-n)                   Q=15-n
例如,某变量的值在-1至+1之间,即|max|<1,因此n=0,Q=15-n=15。
    既然确定了变量的|max|就可以确定其Q值,那么变量的|max|又是如何确定的呢?一般来说,确定变量的|max|有两种方法。一种是理论分析法,另一种是统计分析法。


1.  理论分析法
    有些变量的动态范围通过理论分析是可以确定的。例如:
(1)三角函数。y=sin(x)或y=cos(x),由三角函数知识可知,|y|<=1。
(2)汉明窗。y(n)=0.54一0.46cos[nπn/(N-1)],0<=n<=N-1。因为-1<=cos[2πn/(N-1)]<=1,所以0.08<=y(n)<=1.0。
(3)FIR卷积。y(n)=∑h(k)x(n-k),设∑|h(k)|=1.0,且x(n)是模拟信号12位量化值,即有|x(n)|<=211,则|y(n)|<=211。
(4)理论已经证明,在自相关线性预测编码(LPC)的程序设计中,反射系数ki满足下列不等式:|ki|<1.0,i=1,2,...,p,p为LPC的阶数。
  2.  统计分析法
     对于理论上无法确定范围的变量,一般采用统计分析的方法来确定其动态范围。所谓统计分析,就是用足够多的输入信号样值来确定程序中变量的动态范围,这里输入信号一方面要有一定的数量,另一方面必须尽可能地涉及各种情况。例如,在语音信号分析中,统计分析时就必须来集足够多的语音信号样值,并且在所采集的语音样值中,应尽可能地包含各种情况。如音量的大小,声音的种类(男声、女声等)。只有这样,统计出来的结果才能具有典型性。
    当然,统计分析毕竟不可能涉及所有可能发生的情况,因此,对统计得出的结果在程序设计时可采取一些保护措施,如适当牺牲一些精度,Q值取比统计值稍大些,使用DSP芯片提供的溢出保护功能等。

使用特权

评论回复
地板
dgun|  楼主 | 2011-12-29 16:38 | 只看该作者
2.5浮点至定点变换的C程序举例
     本节我们通过一个例子来说明C程序从浮点变换至定点的方法。这是一个对语音信号(0.3~3.4kHz)进行低通滤波的C语言程序,低通滤波的截止频率为 800Hz,滤波器采用19点的有限冲击响应FIR滤波。语音信号的采样频率为8kHz,每个语音样值按16位整型数存放在insp.dat文件中。
例1.7语音信号800Hz 19点FIR低通滤波C语言浮点程序。
#include  <stdio.h>
const int length=180/*语音帧长为180点=22.5ms@8kHz采样---1点:0.125ms*/
void filter(int xin[],int xout[],int n,float h[]);/*滤波子程序说明*/
/*19点滤波器系数*/
static float h[19]=
{0.01218354,-0.009012882,-0.02881839,-0.04743239,-0.04584568,
-0.008692503,0.06446265,0.1544655,0.2289794,0.257883,
0.2289794,0.1544655,0.06446265,-0.008692503,-0.04584568,
-0.04743239,-0.02881839,-0.009012882,0.01218354};
static int xl[length+20];
/*低通滤波浮点子程序*/
void filter(int xin[],int xout[],int n,float h[])
{
int i,j;
float sum;
for(i=0;i<length;i++) x1[n+i-1]=xin[i];
for(i=0;i<length;i++)
{
sum=0.0;
for(j=0;j<n;j++)sum+=h[j] * x1[i-j+n-1];
xout[i]=(int)sum;
for(i=0;i<(n-l);i++)x1[n-i-2]=xin[length-1-i];
}
/*主程序*/
void main()
FILE *fp1,*fp2;
int frame,indata[length],outdata[length];
fp1=fopen(insp.dat,"rb");/* 输入语音文件*/
fp2=fopen(Outsp.dat,"wb");/* 滤波后语音文件*/
frame=0;
while(feof(fp1) ==0)
{
frame++;
printf(“frame=%d\n”,frame);
for(i=0;i<length;i++)indata[i]=getw(fp1);  /*取一帧语音数据*/
filter(indata,outdata,19,h);/*调用低通滤波子程序*/
for(i=0;i<length;i++)putw(outdata[i],fp2);/*将滤波后的样值写入文件*/
}
fcloseall();/*关闭文件*/
return(0);
}
例1.8语音信号800Hz l9点FIR低通滤波C语言定点程序。
#i nclude <stdio.h>
const int length=180;
void  filter (int xin[],int xout[],int n,int h[]);
static int h[19]={399,-296,-945,-1555,-1503,-285,2112,5061,7503,8450,
7503,5061,2112,-285,-1503,-1555,-945,-296,399};/*Q15*/
static int x1[length+20];
/*低通滤波定点子程序*/
void filter(int xin[],int xout[],int n,int h[])
int i,j;
long sum;
for(i=0;i<length;i++)x1[n+i-111=xin][i];
for(i=0;i<1ength;i++)
sum=0;
for(j=0;j<n;j++)sum+=(long)h[j]*x1[i-j+n-1];
xout[i]=sum>>15;
for(i=0;i<(n-1);i++)x1[n-i-2]=xin[length-i-1];
}
主程序与浮点的完全一样。“

使用特权

评论回复
5
dgun|  楼主 | 2011-12-29 16:38 | 只看该作者
3  DSP定点算术运算
    定点DSP芯片的数值表示基于2的补码表示形式。每个16位数用l个符号位、i个整数位和15-i个小数位来表示。因此:
00000010.10100000
表示的值为:2 ^ 1+2 ^ -1+2 ^ -3=2.625
     这个数可用Q8格式(8个小数位)来表示,其表示的数值范围为-128至+l27.996,一个Q8定点数的小数精度为1/256=0.004。
     虽然特殊情况(如动态范围和精度要求)必须使用混合表示法。但是,更通常的是全部以Q15格式表示的小数或以Q0格式表示的整数来工作。这一点对于主要是乘法和累加的信号处理算法特别现实,小数乘以小数得小数,整数乘以整数得整数。当然,乘积累加时可能会出现溢出现象,在这种情况下,程序员应当了解数学里面的物理过程以注意可能的溢出情况。


.1定点乘法

例1.9  Q15*Q15=Q30
0.5*0.5=0.25
0.100000000000000;Q15
  *  0.100000000000000;Q15
--------------------------------------------
00.010000000000000000000000000000=0.25;Q30
     两个Q15的小数相乘后得到一个Q30的小数,即有两个符号位。一般情况下相乘后得到的满精度数不必全部保留,而只需保留16位单精度数。由于相乘后得到的高16位不满15位的小数据度,为了达到15位精度,可将乘积左移一位。


                                                       非线性运算的定点快速实现
数值运算中,除基本的加减乘除运算外,还有其他许多非线性运算,如对数运算、开方运算、指数运算、三角函数运算等,实现这些非线性运算的方法一般有:(1)调用DSP编译系统的库函数;(2)查表法;(3)混合法。下面分别介绍这三种方法。
1.调用DSP编译系统的库函数

TMS320C2X/C5X 的C编译器提供了比较丰富的运行支持库函数。在这些库函数中,包含了诸如对数、开方、三角函数、指数等常用的非线性函数。在C程序中(也可在汇编程序中)只要采用与库函数相同的变量定义,就可以直接调用。例如,在库函数中,定义了以10为底的常用对数log10( ):

#include <math.h>

double  log10(double x);

在C程序中按如下方式调用:

float x,y;

x = 10.0;

y = log10(x);

从上例可以看出,库函数中的常用对数log10( )要求的输入值为浮点数,返回值也为浮点数,运算的精度完全可以保证。直接调用库函数非常方便,但由于运算量大,很难在实时DSP中得到应用。

使用特权

评论回复
6
dgun|  楼主 | 2011-12-29 16:39 | 只看该作者
2.查表法




在实时DSP应用中实现非线性运算,一般都采取适当降低运算精度来提高程序的运算速度。查表法是快速实现非线性运算最常用的方法。采用这种方法必须根据自变量的范围和精度要求制作一张表格。显然输入的范围越大,精度要求越高,则所需的表格就越大,即存储量也越大。查表法求值所需的计算就是根据输入值确定表的地址,根据地址就可得到相应的值,因而运算量较小。查表法比较适合于非线性函数是周期函数或已知非线性函数输入值范围这两种情况,例3.12和例3.13分别说明这两种情况。

例3.12  已知正弦函数y=cos(x),制作一个512点表格,并说明查表方法。

由于正弦函数是周期函数,函数值在-1至+1之间,用查表法比较合适。

由于Q15的表示范围为-1至32767/32768之间,原则上讲-1至+1的范围必须用Q14表示。但一般从方便和总体精度考虑,类似情况仍用Q15表示,此时+1用32767来表示。

(1) 产生512点值的C语言程序如下所示:



#define  N  512

#define  pi  3.14159

int  sin_tab[512];

void  main( )

{

int i;

for(i=0;i<N;i++) sin_tab[i]=(int)(32767*sin(2*pi*i/N)); //32767为2的15次方

}



(2) 查表

查表实际上就是根据输入值确定表的地址。设输入x在0~2p之间,则x对应于512点表的地址为:index = (int)(512*x/2p),则 y = sin(x) = sin_tab[index]。

如果x用Q12定点数表示,将512/2p用Q8表示为 20861,则计算正弦表的地址的公式为:index = (x*20861L)>>20




例3.13  用查表法求以2为底的对数,已知自变量取值范围为0.5~1,要求将自变量范围均匀划分为10等分。试制作这个表格并说明查表方法。

(1) 做表:

y = log2(x),由于x在0.5到1之间,因此y在-1到0之间,x和y均可用Q15表示。由于对x均匀划分为10段,因此,10段对应于输入x的范围如表3.2所示。若每一段的对数值都取第1点的对数值,则表中第1段的对数值为y0(Q15) = (int)(log2(0.5)×32768),第2段的对数值为y1(Q15) = (int)(log2(0.55)×32768),依次类推。






                                   表3.2  logtab0 10点对数表(输入0.5~1)

地址
输入值
对数值(Q15)

0
0.50~0.55
-32768

1
0.55~0.60
-28262

2
0.60~0.65
-24149

3
0.65~0.70
-20365

4
0.70~0.75
-16862

5
0.75~0.80
-13600

6
0.80~0.85
-10549

7
0.85~0.90
-7683

8
0.90~0.95
-4981

9
0.95~1.00
-2425

  (2) 查表:查表时,先根据输入值计算表的地址,计算方法为:index=( (x-16384)×20)>>15。式中,index就是查表用的地址。例如,已知输入x= 26869,则index=6,因此y= -10549。
3.混合法

(1) 提高查表法的精度

上述方法查表所得结果的精度随表的大小而变化,表越大,则精度越高,但存储量也越大。当系统的存储量有限而精度要求也较高时,查表法就不太适合。那么能否在适当增加运算量的情况下提高非线性运算的精度呢?下面介绍一种查表结合少量运算来计算非线性函数的混合法,这种方法适用于在输入变量的范围内函数呈单调变化的情形。

混合法是在查表的基础上采用计算的方法以提高当输入值处于表格两点之间时的精度。提高精度的一个简便方法是采用折线近似法,如图3.1所示。

仍以求以2为底的对数为例(例3.13)。设输入值为x,则精确的对数值为y,在表格值的两点之间作一直线,用y'作为y的近似值,则有:

y'=y0+ y





图3.1  提高精度的折线近似法

其中y0由查表求得。现在只需在查表求得y0的基础上增加 y即可。 y的计算方法如下:


y=( x/ x0) y= x( y0/ x0)

式中 y0/ x0对每一段来说是一个恒定值,可作一个表格直接查得。此外计算 x时需用到每段横坐标的起始值,这个值也可作一个表格。这样共有三个大小均为10的表格,分别为存储每段起点对数值的表logtab0、存储每段 y0/ x0 值的表logtab1和存储每段输入起始值x0的表logtab2,表logtab1和表logtab2可用下列两个数组表示:

int     logtab1[10]={22529,20567,18920,17517,16308,15255,14330,13511,12780,12124};  

int     logtab2[10]={16384,18022,19660,21299,22938,24576,26214,27853,29491,31130};  



综上所述,采用混合法计算对数值的方法可归纳为:

①根据输入值,计算查表地址:index=((x-16384)×20)>>15;

②查表得y0=logtab0[index];
③计算 x=x-logtab2[index];
④计算 y=( x×logtab1[index])>>13;

⑤计算得结果y=y0+ y。







例3.15  实现以2为底的对数的C定点模拟程序



int    logtab0[10]={-32768,-28262,-24149,-20365,-16862,

            -13600,-10549,-7683,-4981,-2425};

int    logtab1[10]={22529,20567,18920,17517,16308,

            15255,14330,13511,12780,12124};  

int    logtab2[10]={16384,18022,19660,21299,22938,

            24576,26214,27853,29491,31130};  

int    log2_fast(int   Am)

{

int     point,point1;

int     index,x0,dx,dy,y;

point=0;

while(Am<16384) {point++;Am=Am<<1;}      

point1=(15-point-4)*512;           

index=((Am-16384)*20L)>>15;              

dx=Am-logtab2[index];

dy=((long)dx*logtab1[index])>>13;

y=(dy+logtab0[index])>>6;         

y=point1+y;

return (y);

}

上述程序中,输入值Am采用Q4表示,输出采用Q9表示,果输入输出的Q值与上面程序中的不同,则应做相应的修改。

使用特权

评论回复
7
爱在2012| | 2011-12-29 20:21 | 只看该作者
楼主辛苦

使用特权

评论回复
8
sqcumt123| | 2011-12-30 09:37 | 只看该作者
楼主辛苦了,发那么多内容,好好学习

使用特权

评论回复
9
baiyunfei.k.f| | 2011-12-30 13:06 | 只看该作者
:victory:

使用特权

评论回复
10
alnjby| | 2011-12-30 15:10 | 只看该作者
对DSP芯片而言,参与数值运算的数就是16位的整型数









耳鼻喉医院
武警南京医院

使用特权

评论回复
11
autokaka| | 2011-12-30 16:28 | 只看该作者
LZ辛苦了,顶~~~

使用特权

评论回复
发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则

37

主题

500

帖子

42

粉丝