“多核DSP”也许对大多数人而言并不是个陌生的概念,早在几年前,为了提升性能、降低功耗,在处理器中增加内核已经成为计算和嵌入式处理器产业的标准作法。 然而,正当多内核技术在处理器领域发展得红红火火之时,多核DSP似乎显得不瘟不火,还仅仅停留在无线基础设施应用上。
多核DSP之困
正如多核技术被计算应用广泛采纳一样:以更低的功率提供更高的性能驱使DSP技术必须“一次又一次打破性能藩篱”。“要么是单板面积受限,要么是处理能力受限,越来越多的客户需要更高的处理平台,”德州仪器中国区DSP业务开发经理郝晓鹏对电子工程世界如是说。
用户的需求是多种多样的。在通信基础设施的信号处理中,无论是语音用户、数据用户还是多媒体用户,所需的是单位通道成本低、功耗小;而对于视频检测、医疗影像等应用,越来越复杂的二维、三维甚至四维的图像处理,需要并行化的系统并能够运行复杂的算法;另外,在高性能、高强度终端设备中,包括医疗中的核磁共振,实时的现场通信,这些设备需要在极短的时间完成信号处理分析,这时对性能的要求是非常高的。
而目前几百到1GHz的单核处理器远远不能满足这种需求。
与此同时,单核通过提升硅工艺而大幅提升性能的理论,伴随着漏电流的发现,已经不再奏效。同时,主频从最初的几百兆赫兹到1.2G赫兹甚至更高,功耗也随之提升,单板功耗已不可控。功耗的提升,为整个系统设计带来前所未有的复杂度。此时多核的诞生似乎是理所当然。
然而,核越多面临的挑战也越大:首先,功耗,这是多核环境下在系统硬件设计上要考虑的一个重要问题,过高的功耗会造成散热困难进而影响系统的稳定性。同时,把更多的处理核心集成到一起需要更精细的制造工艺,例如45纳米甚至更窄的线宽,成本必然会提升。程序优化会更加越困难,而这些优化工作往往不是开发系统和编译器能完成的,而是需要大量的高素质人才来完成。
随之而来的,是开发人员必须学会如何划分设计以便高效地使用多核DSP。“许多人希望编译器能完成分割任务。但这不是一蹴而就的事。为了用好这些器件,我们需要学会多角度的思考。” TI公司多核解决方案部经理Ray Simar表示。
性能与功耗的决斗
然而,以上的种种挑战丝毫不会影响DSP厂商的脚步,也正是看到了种种需求与挑战,德州仪器 (TI)日前推出了一款在单一裸片上集成了三个 1 GHz 的 TMS320C64x+™ 内核的DSP处理器——TMS320C6474。大多数人心中不免有些疑问:双核、四核、八核,似乎这些产品已经见怪不怪,甚至TI本身也已经推出过6 DSP内核的TNETV3020。这个时候推出这样一款产品,是不是略显过时?
“这主要是看用户的需求,”郝晓鹏解释道。多核DSP的应用是极具特点的,如无线基站、医疗影像、现场通信等等,这些领域的客户对多核DSP的需求是芯片厂商推出产品的首要考虑因素。他们所需的单芯片功耗是多少?从而决定使用多少内核;他们所需单芯片的处理能力是多少?这是靠具体应用决定的;多核DSP的可编程性和升级维护以及如何在多核的情况下有效提升并行度?种种诸多因素的折衷,最终导致了这款三核芯片的诞生。
TMS320C6474 在单一裸片上集成了三个 1 GHz 的 TMS320C64x+™ 内核,可实现 3 GHz 的原始 DSP 性能,而功耗和DSP成本则分别比离散处理解决方案降低了 1/3和 2/3。
“一方面要降低功耗,但另一方面又要为新的多媒体和娱乐应用增强系统性能,”相信这是大多数无线移动终端和其他节能型平台制造商的都要面对的进退两难的局面。基于 C6474 的解决方案有着更为明显的优势。例如,为了满足 25 瓦的功率预算要求,设计人员不能采用超过 8 个 1 GHz TMS320C6455 单核 DSP,且每个 DSP 的功耗必须为 3W左右,这一系统的总体性能为 8 GHz。与之对应的是基于 C6474 的系统仅包含四颗芯片,每颗芯片的功耗约为 6W。但由于每个处理器包含了三个 1 GHz 内核,系统总性能将达到 12 GHz,从而使单位功率下的性能提高了50%。功耗的提升更多得益于TI 的 SmartReflex 技术,通过 TI 的深亚微米工艺技术显著降低了芯片级漏电。该技术由一系列智能和自适应硬件与软件技术组成的,这些技术可根据设备活动、操作模式和温度来动态控制电压、频率和功率。
同时,多核DSP天生的使命就是提升性能。C6474 在同一裸片上集成了三个 1 GHz 的 C64x+™ 内核,可实现 3 GHz 的 DSP 性能,即处理能力为 24,000 MMACS(16 位)或 48,000 MMACS(8 位)。同时,考虑到很好的延续性,该产品与诸如 TMS320C6452 与 TMS320C6455 等基于 C64x+ 内核的单核 DSP的代码完全兼容,而且与 TMS320C641x等基于前代 TMS320C64x™ 内核的产品也完全兼容。高性能处理器需要高性能外设,因此C6474 集成了 Viterbi 与 Turbo 加速器,从而可大幅提高这些常用算法的处理效率。此外,该处理器还包含有几个串行器/解串器 (SERDES) 接口,如 SGMII 以太网 MAC (EMAC)、天线接口 (AIF) 以及 Serial RapidIO (SRIO)。每个内核都配有 32 kB 的 L1 程序存储器与 L1 数据存储器,可支持两种配置的 3 MB 总体 L2 存储器(每个内核 1 MB,或者 1.5 MB / 1 MB / 0.5 MB 的配置)以及TI 速度最快、运行速率达 667 MHz的 DDR2 存储器接口,从而可对外设与处理器内核进行有益的补充。
然而,不可否认的是,多核DSP开发环境与单核DSP的开发环境毕竟还有很大不同,而且工程师对多核处理平台还是有一些担心的,其中如何更有效发挥多核DSP应用的性能是最主要的问题。
“这就涉及到TI提供的编译器系统,”郝晓鹏说。C6474 评估板 (EVM) 包括两个 C6474 处理器,一个支持 EMAC、AIF 以及 SRIO SERDES 接口的高速 DSP 互联单元以及 Orcad 与 Gerber 等设计文件。此外,C6474 EVM 还提供具有 XDS560 仿真器的板载 JTAG 接头 (JTAG header),并提供电路板专用的 Code Composer Studio™ (CCStudio) 集成开发环境 (IDE)。TMDXEVM6474 的定价为 1995 美元。此外,VirtualLogix™ 还推出了面向C6474的VLX™。VLX Real-Time Virtualization™ 软件使 TI 的 DSP 平台在运行 TI DSP/BIOS™ 内核执行传统 DSP 任务的同时,还可执行 VirtualLogix Linux™,从而无需添加专用处理器便可快速采用并集成通用网络、高级网络或控制功能。
不过,最终回到多核的市场,无疑是功耗与性能的决斗。
TI DSP也正是瞄准了这两大方向,C6474是瞄准高性能的多内核。另外一个分支则是瞄准低功耗多内核。
并非一蹴而就
正如被大家问到“多核DSP是否会代替单核DSP”时,郝晓鹏称要看具体应用场景,如果一个单核处理器已经足够,就没有必要再放一个多核处理器了。而且,各个DSP之间,在功耗、成本、单板面积都不适合多核DSP平台时,也要用分立的解决方案。
多年来蜂窝电话和通信行业中一直使用异质DSP(一个DSP内核和一个RISC CPU内核)。这些处理器的目标应用可以被很好地划分为适合DSP的信号处理任务和适合RISC CPU的控制任务。
但是,DSP芯片厂商都看好多核是未来DSP的趋势,并为此努力着。PicoChip很早前推出的picoArray架构就整合了多个相同的内核来支持高性能DSP,ADI的Blackfin BF561双核DSP也可以很好地执行两种任务。不过,ADI公司Blackfin应用经理David Katz表示,虽然“多内核是我们发展策略中的重要组成部分,但ADI在BF561后就没有推出过同类多核DSP设计。”
TI本身也于2007年年初推出了用于通信的多核DSP——TNETV3020,其主要用于高密度核心网络,采用6个DSP内核、1个开关矩阵和多种串行I/O通道,允许设计师针对通道格式转换等任务对设计进行配置。同样,音频处理也需要对多任务实现高性能处理,对此,飞思卡尔新款Symphony DSP56724和DSP56725 DSP采用了一种双核架构,允许开发人员分割处理任务,同时复用现有的代码。用于视频或混合音频与视频处理的多核DSP也已出现,例如Cradle Technologies公司的CT3616,Gennum公司的Voyageur以及Cirrus Logic公司的音频用多核DSP。
虽然大多数开发人员缺少划分软件的经验,而自动化工具支持也非常缺乏,同类多核DSP并未得到广泛应用。正如TI公司的Simar所说,“展望未来,我们可以发现,针对DSP的多核技术不会只是小把戏,它将变得越来越普及。” |