ADSP Tiger SHARC芯片TS

只看该作者 · 2017-12-23 11:39

ADSP Tiger SHARC芯片TS

１　引言

利用数字信号处理器（ＤＳＰ）来进行模拟信号的处理同时具有很大的优越性，其主要表现有精度高，灵活性大，可靠性好等方面。它不但可以广泛应用于通信系统、图形／图像处理、雷达声纳、医学信号处理等实时信号处理领域。而且随着人们对实时信号处理要求的不断提高和大规模集成电路技术的迅速发展，数字信号处理器也发生着日新月异的变革。就ＡＤ公司而言，继１６－ｂｉｔ定点ＡＤＳＰ２１ｘｘ和３２－ｂｉｔ浮点ＡＤＳＰ２１ｘｘｘ系列之后，日前又推出了ＡＤＳＰＴｉｇｅｒＳＨＡＲＣ系列的新型器件。这种ＴｉｇｅｒＳＨＡＲＣ系列器件是基于ＡＤ２１０６ｘ的下一代高性能芯片，其内部集成有更大容量的ＲＡＭ，它可以在单周期内执行４条指令，且可以很方便地实现多片并行处理系统的扩展，这些新添的特性更增加了高速实时信号处理的可行性。本文将介绍该系列中的ＴＳ１０１Ｓ芯片，以及利用该芯片实现ＦＢＬＭＳ?Ｆｒｅｑｕｅｎｃｙ－ｄｏｍａｉｎＢｌｏｃｋＬＭＳ?算法的自适应预测滤波的设计方法。此外，笔者还在ＥＺ－ＫＩＴ开发板上测试通过并验证了该算法抑制同频窄带信号对雷达干扰的有效性。

２　ＴＳ１０１Ｓ系统器件的结构性能

２．１结构特点

ＴＳ１０１Ｓ的系统结构逻辑框图如图１所示。ＴＳ１０１Ｓ依旧采用超级哈佛结构（ＳＨＡＲＣ），并运用流水线技术，目前可以达到８级流水线（３级取指５级执行），其结构特点如下：

●具有特殊的指令集和较长的指令字，一个指令字可以同时控制芯片内多个功能单元的操作；

●片内集成有可由用户自己定义的６Ｍｂｉｔ大容量ＳＲＡＭ存储器；

●具有２个独立的计算单元，每个单元都有算术逻辑单元、乘法器、移位器、寄存器组及相关的数据对齐缓冲器，并可通过***支持Ｔｒｅｌｌｉｓ解码?如，Ｖｉｔｅｒｂｉ和Ｔｕｒｂｏ解码?和复数相关运算；

●带有两个ＩｎｔｅｇｅｒＡＬＵ，每个ＩＡＬＵ含有两个通用寄存器组，因而具有强大的地址产生能力，可支持环形缓冲和位反序寻址；

●支持ＳＩＭＤ操作。

２．２主要性能

ＴＳ１０１Ｓ具有极高的处理能力，它采用静态超标量结构，既有超标量处理器所具备的大容量指令缓冲池和指令跳转预测功能，又可以在程序执行前就对指令级进行并行操作并用编译器预测出来。ＴＳ１０１Ｓ的其它重要性能指标如下：

●指令周期为４ｎｓ（主频２５０ＭＨｚ）?运算能力达到２５０ＭＩＰＳ；

●ＤＳＰ每周期能执行４条指令，具有２４个１６－ｂｉｔ定点运算和６个浮点运算能力，能提供１５００ＭＩＰＳ或６．０ＧＯＰＳ的性能；

●每周期可实现８&TImes;１６ｂｉｔ乘与４０ｂｉｔ累加或者２&TImes;１６ｂｉｔ乘与８０ｂｉｔ累加；

●支持３２ｂｉｔＩＥＥＥ浮点数据和８ｂｉｔ／１６ｂｉｔ／３２ｂｉｔ／６４ｂｉｔ定点数据格式。

ＴＳ１０１的其它典型性能指标如表１所列。

表1 250M运行时通用算法性能

性能指村	速度	时钟周期
32-bit处，500百万MACs/s峰值性能
1024点复数FFT（基2）	39.34μs	9835
1024点输入50抽头FIR	110μs	27500
单FIR MAC	2.2ns	0.55
16-bit算法，20亿次MACs/s峰值性能
256点复数FFT（基2）	4.4μs	1100
1024点输入50抽头FIR	28.8μs	7200
单FIR MAC	0.56ns	0.14
单复数FIR MAC	2.28ns	0.57

雷达信号处理一般需要很高的实时性，比如在干扰抑制算法处理时，必须在一个回波脉冲周期内完成相关算法。由上述分析可知，ＴＳ１０１Ｓ可以满足高速实时数字信号处理的要求。下面以ＴＳ１０１Ｓ实现ＦＢＬＭＳ自适应算法抑制同频窄带信号对雷达的干扰为例进一步介绍该芯片。

３　ＦＢＬＭＳ算法分析与实现

自适应过程一般采用典型ＬＭＳ自适应算法，但当滤波器的输入信号为有色随机过程时，特别是当输入信号为高度相关时，这种算法收敛速度要下降许多，这主要是因为输入信号的自相关矩阵特征值的分散程度加剧将导致算法收敛性能的恶化和稳态误差的增大。此时若采用变换域算法可以增加算法收敛速度。变换域算法的基本思想是：先对输入信号进行一次正交变换以去除或衰减其相关性，然后将变换后的信号加到自适应滤波器以实现滤波处理，从而改善相关矩阵的条件数。因为离散傅立叶变换?ＤＦＴ?本身具有近似正交性，加之有ＦＦＴ快速算法，故频域分块ＬＭＳ?ＦＢＬＭＳ?算法被广泛应用。

ＦＢＬＭＳ算法本质上是以频域来实现时域分块ＬＭＳ算法的，即将时域数据分组构成Ｎ个点的数据块，且在每块上滤波权系数保持不变。其原理框图如图２所示。ＦＢＬＭＳ算法在频域内可以用数字信号处理中的重叠保留法来实现，其计算量比时域法大为减少，也可以用重叠相加法来计算，但这种算法比重叠保留法需要较大的计算量。块数据的任何重叠比例都是可行的，但以５０％的重叠计算效率为最高。对ＦＢＬＭＳ算法和典型ＬＭＳ算法的运算量做了比较，并从理论上讨论了两个算法中乘法部分的运算量。本文从实际工程出发，详细分析了两个算法中乘法和加法的总运算量，其结果为：

复杂度之比＝ＦＢＬＭＳ实数乘加次数／ＬＭＳ实数乘加次数＝（２５Ｎｌｏｇ２Ｎ＋２Ｎ－４）／[２Ｎ(２Ｎ－１)]?

采用ＡＤＳＰ的Ｃ语言来实现ＦＢＬＭＳ算法的程序如下：

ｆｏｒ(ｉ＝０;ｉ＜＝３０;ｉ＋＋)

{ｆｏｒ(ｊ＝０;ｊ＜＝ｎ－１;ｊ＋＋)

{ｉｎ[ｊ]＝ｉｎｐｕｔ[ｉ&TImes;Ｎ＋ｊ;]

ｒｆｆｔ(ｉｎ,ｔｉｎ,ｎｆ,ｗｆｆｔ,ｗｓｔ,ｎ);

ｒｆｆｔ(ｗ,ｔｗ,ｗｆ,ｗｆｆｔ,ｗｓｔ,ｎ);

ｃｖｅｃｖｍｌｔ(ｉｎｆ,ｗｆ,ｉｎｗ,ｎ);

ｉｆｆｔ(ｉｎｗ,ｔ,Ｏ,ｗｆｆｔ,ｗｓｔ,ｎ);

ｆｏｒ(ｊ＝０,ｊ＜＝Ｎ－１;ｊ＋＋)

{ｙ[ｉ&TImes;Ｎ＋ｊ]＝Ｏ[Ｎ＋ｊ]．ｒｅ;

ｅ[ｉ×Ｎ＋ｊ]＝ｒｅｆｅｒｅ[ｉ×Ｎ＋ｊ]－ｙ[ｉ×Ｎ＋ｊ];

ｔｅｍｐ[Ｎ＋ｊ]＝ｅ[ｉ×Ｎ＋ｊ;}

ｒｆｆｔ(ｔｅｍｐ,ｔ,Ｅ,ｗｆｆｔ,ｗｓｔ,ｎ);

ｆｏｒ(ｊ＝０;ｊ＜＝ｎ－１;ｊ＋＋)

{ｉｎｆ_ｃｏｎｊ[ｊ]＝ｃｏｎｊｆ(ｉｎｆ[ｊ]);}???

ｃｖｅｃｖｍｌｔ(Ｅ,ｉｎｆ_ｃｏｎｊ,Ｅｉｎ,ｎ);

ｉｆｆｔ(Ｅｉｎ,ｔ,Ｅｉｎ,ｗｆｆｔ,ｗｓｔ,ｎ);

ｆｏｒ(ｊ＝０;ｊ＜＝Ｎ－１;ｊ＋＋)

{ＯＯ[ｊ]＝Ｅｉｎ[ｊ]．ｒｅ;

ｗ[ｊ]＝ｗ[ｊ]＋２＊ｕ＊ＯＯ[ｊ];}??

}

在ＥＺ－ＫＩＴ测试板中，笔者用汇编语言和Ｃ语言程序分别测试了典型ＬＭＳ算法的运行速度，并与ＦＢＬＭＳ算法的Ｃ语言运行速度进行了比较，表２所列是其比较结果，从表２可以看出滤波器阶数为６４时，即使是用Ｃ语言编写的ＦＢＬＭＳ算法也比用汇编编写的ＬＭＳ算法速度快２０％以上，如果滤波器的阶数更大，则速度会提高更多。

表2 FBLMS和LMS算法在运行速度比较

算法	条件	时钟周期	速度
LMS-ASM	1024点实数据，64阶	1257493	5.030ms
LMS-C	1024点实数据，64阶	8394862	33.579ms
FBLMS-C	1024点实数据，64阶	986524	3.946ms

ADSP Tiger SHARC芯片TS

相关下载

相关帖子