打印

DSP为什么快?

[复制链接]
4403|14
手机看帖
扫描二维码
随时随地手机跟帖
跳转到指定楼层
楼主
luhuaren|  楼主 | 2009-5-5 09:26 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
沙发
armecos| | 2009-5-5 09:50 | 只看该作者

《增值包》里有详细解释,

《快快乐乐跟我学DSP》
        2009/01/12  asdjf@163.com  www.armecos.com

    ......

    ----------
    DSP硬件结构
    ----------
    为什么说DSP特别适合数字信号处理呢?为什么它的运算速度这么快?
    原来DSP在硬件结构上做了优化,使得其运算效率非常高。
    下面我从各家DSP硬件共同点、各家硬件特点、和通用CPU共同点来说说DSP硬件结构。其实你只要掌握了任何一家的DSP硬件结构,就可以触类旁通理解其他厂家的DSP,因为只要是DSP,就有很多共同点。当然,各家也有各自的特色,我们一并对比介绍。通用CPU上也有加快运算速度的优化结构,这里列举的硬件结构主要是指和通用CPU不一样的部分。
    
    1、DSP采用哈佛结构总线,程序存储器和数据存储器分开,取指和数据访问同时进行。通用CPU采用冯.诺依曼型总线,程序和数据总线共享同一总线,取指和数据访问不能并发。
    2、流水线操作(pipeline),取指、译码、寻址、取数、运算、存储流水操作,等效单周期完成指令,而通用CPU通常一条指令需要几个时钟周期才可以完成。当然,流水线操作引入了一些新问题,比如需要在适当位置加NOP空操作指令或者调整指令位置以确保流水操作能顺利完成。
    3、独立的硬件乘法器。卷积、数字滤波、FFT、相关、矩阵运算等算法中,大量重复乘法和累加。MAC指令(取数、乘法、累加)在单周期内完成(通过流水线等效实现),比用软件乘法快很多。
    4、独立的DMA总线和控制器。通用CPU中的总线是共享的,DMA使用了总线则CPU就要等待,而DSP中的DMA使用独立的DMA总线通路,可以和CPU core并发操作。独立的源、目的地址寄存器、长度寄存器,自动计算地址和循环。光DSP处理器运算速度快还不行,还与数据吞吐率有关。
    5、中心算术逻辑单元CALU。DSP中有很多ALU,如DMA控制器、地址发生器中就含有可做乘加运算的ALU,这样他们就不用占用CALU了。DSP中的ALU非常简单,地址、乘法、移位都不管了,只管算术与逻辑运算。
    6、移位:通用CPU每次移动1bit,DSP可在一个机器周期内左移/右移多个比特。可用来对数字定标,使之放大或缩小以保证精度和防止溢出,还可以用来做定点数和浮点数之间的转换。
    7、溢出:通用CPU中,溢出发生后,设置溢出标志位,不带符号位时回绕,带符号位时反相,带来很大误差。此时,溢出已经发生,无法挽回。DSP把移位输出的最高位(MSB)存放在一个位检测状态寄存器中,检测到MSB=1时,就通知下一次会发生溢出,此时溢出还未发生,来得及采取措施防止。
    8、数据地址发生器(DAG)。取数不光要占用数据总线,还要计算地址。通用CPU数据、地址的产生和数据的处理都由ALU来完成。DSP中,设置了专门的数据地址发生器(实际上就是专门的ALU),来产生所需要的数据地址,节省公共的ALU时间。CALU主要做运算而不是做这些辅助的工作。
    9、外设(peripherals)
        时钟发生器、定时器、软件可编程等待状态发生器、GPIO、同步串口与异步串口、JTAG。
    10、CSSU比较、选择、存储单元。用于维特比译码,通信中常用算法,专门设计一个硬件单元用于此算法。
    11、片内具有快速RAM,通常可通过独立的数据总线在两块中同时访问。片内RAM同片外存储器相比,有以下优点:(1)片内RAM的速度较快,可以保证DSP无等待运行;(2)对于C2000/C3x/C5000系列,部分片内存储器可以在一个指令周期内访问两次,使得指令可以更加高效;(3)片内RAM运行稳定,不受外部的干扰影响,也不会干扰外部。 4)DSP片内多总线,在访问片内RAM时,不会影响其它总线的访问,效率较高。
    12、具有低开销或无开销循环及跳转的硬件支持。
    13、快速的中断处理和硬件I/O支持。
    当然,与通用微处理器相比,DSP芯片的其他通用功能相对较弱些。
    
    以上讲的是各家DSP共同点,其实,每家厂商或者同一家厂商的不同系列的DSP都有各自特点。比如:MOTOROLA DSP56系列是24bit(3字节),而TI是16bit(2字节)。MOTOROLA分成X、Y两块数据存储器同时操作,提高速度,而TI是在一个周期内访问2次,异曲同工。TI的C2000(C20x、C24x)侧重于控制;C5000(C54x、C55x)侧重于低功耗、有效性能(手机使用可以省电延长电池寿命,不用风扇散热体积小);C6000(C62xx、C67xx、C64xx)侧重于高性能;OMAP侧重于嵌入式。此外,还有一些专用DSP和多处理器DSP芯片。
    
    CACHE是DSP和通用处理器都使用的技术,就不多讲了。经过前面的讨论,再遇到新的DSP就不怕了。
    
    此外还要注意:
    定点DSP和浮点DSP,定点DSP中经常要考虑溢出问题,浮点基本不用考虑。浮点用指数表示,定点用小数表示。浮点DSP功耗高、设计难度大、价格高,手机里用定点DSP,功耗小、成本低。
    多处理器接口
    VLIW超长指令字,TMS320C6701高达256bit指令要分到8个处理单元去处理,效率高。
    
    预测图表,型号、制程(微米)、MIPS、RAM、Price、Power(mW/MIPS)
    
    DSP的发展受到应用需求多样化和集成电路技术发展的双重推动。更高的运行速度和信号处理速度;多DSP协同工作;更方便的开发环境;DSP Core;更高性价比;更广泛应用。
    
    总之,DSP硬件结构均围绕着怎么样提高数字信号处理器运算速度这个目的设计的。由此可见,DSP的确比通用处理器和单片机MCU更适合更有效地做实时数字信号处理。

使用特权

评论回复
板凳
luhuaren|  楼主 | 2009-5-5 09:56 | 只看该作者

re

我对此方面建树不深是这样回答的:
DSP的汇编指令功能强大,导致同样的算法,做到最优化的程度,所占用的指令周期少,所以他快,但至于为什么指令功能强大,那要看DSP的内核结构,

使用特权

评论回复
地板
luhuaren|  楼主 | 2009-5-5 09:58 | 只看该作者

re

杨大侠真正的高手

使用特权

评论回复
5
HWM| | 2009-5-5 10:12 | 只看该作者

“DSP为什么快?”无解!除非你问DSP为何处理“数字信号”那

若是这样,那就简单了。为何称之为DSP呢?顾名思义,其在“数字信号处理”上做了“优化”。至于具体做了哪些优化,只要有利于“数字信号处理”都可以归入。随着技术的发展和多媒体应用层次的提高,DSP最终会演变成什么模样谁都无法预料。但有一点是可以肯定的,其最终目标还是“数字信号处理”。

使用特权

评论回复
6
luhuaren|  楼主 | 2009-5-5 10:15 | 只看该作者

re

楼上的所表达的意思应该是   DSP是 数字信号处理快
会不会有人问:ARM为什么快之类的顶级问题、、、

使用特权

评论回复
7
HWM| | 2009-5-5 10:36 | 只看该作者

所以,类似“ARM为什么快之类的顶级问题、、、”同样无解

使用特权

评论回复
8
luhuaren|  楼主 | 2009-5-5 10:39 | 只看该作者

re

呵呵,那问这样问题的人估计比TI的工程师还高明

使用特权

评论回复
9
computer00| | 2009-5-5 10:44 | 只看该作者

你反问他一下,做男人好还是做女人好?

使用特权

评论回复
10
luhuaren|  楼主 | 2009-5-5 10:51 | 只看该作者

RE

圈圈反问的不错。。。当时光生气来着,忘了问了

使用特权

评论回复
11
jzdata| | 2009-5-7 11:27 | 只看该作者

受教

使用特权

评论回复
12
yumuzi| | 2009-5-8 10:31 | 只看该作者

dsp

dsp的程序存储器和数据存储器是分开的   采用的是哈佛结构所以速度相当快

使用特权

评论回复
13
mxh0506| | 2009-5-8 13:11 | 只看该作者

哈哈,圈圈真有一套,

原来人们出生之前就已经被朝着不同的方向优化过了

使用特权

评论回复
14
dld2| | 2009-5-8 13:13 | 只看该作者

呵呵

使用特权

评论回复
15
luhuaren|  楼主 | 2009-5-8 21:46 | 只看该作者

re

不知道这么问问题的人有多高的水平

使用特权

评论回复
发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则

4

主题

166

帖子

0

粉丝