打印

用FPGA 嵌入式处理器实现高性能浮点元算

[复制链接]
1286|7
手机看帖
扫描二维码
随时随地手机跟帖
跳转到指定楼层
楼主
星星之火红|  楼主 | 2013-1-3 22:30 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
在采用数值处理技术创建嵌入式应用时,通常以整数或定点表示法来确保算术运算尽量简单,这一点至关重要。因其不仅有助于使成本和功耗降至最低,而且还能尽可能地加速硬件部署。FPGA 非常适用于执行定点运算,并能在逻辑或基于软件或硬件处理器的实施方案中创建高度并行的数据路径解决方案。Virtex®-5 FPGA 产品系列中 FXT 系列的最新硬件处理器 Xilinx® PowerPC® 440 可提供超标量功能,让用户能够对器件编程,使其以高达 550 MHz 的时钟速率并行执行一个或两个定点运算。
尽管用户能通过对器件进行编程来执行大多数采用整数或定点算术的运算,但通常须重新运算并插入比例运算以确保计算结果足够精确。对于复杂运算而言,这不仅耗时,而且还会导致程序变为专用型且不可重用。理想的替代方法是采用标准浮点表示法来提供一种适用于多个应用的高动态范围。这样人们就无需修改算法即可获得适用于任何特定应用或操作环境的定点实施方案,也无需为随后的项目及应用而大范围地修改代码。
虽然赛灵思为基于 IBM 浮点性能库的 PowerPC 440 处理器提供了一种行之有效的仿真浮点解决方案,但处理器内核仍需占用数十个周期来执行每条运算。而采用浮点运算单元 (FPU) 形式的浮点运算硬件加速功能可缩短该运算周期。Virtex-5 FXT 系列中的 PowerPC 440 处理器提供了有效接口,能够将赛灵思软 FPU 等硬件加速器连接至该处理器内核。该方案可通过结构协处理器总线 (FCB) 将 PowerPC 440 处理器上的 128 位辅助处理器单元 (APU) 接口桥接至协处理器。使用该类协处理器(赛灵思 LogiCORE™ IP Virtex-5 APU-FPU),Virtex-5 FXT 用户可以选择软件仿真或者专用软逻辑 FPU 在 PowerPC 上自如地实现浮点运算。图 1 显示了通过 FCB 将 PowerPC 440 处理器连接至 Virtex-5 APU-FPU 的典型实施方案。

图 1——包含 APU-FPU 内核的嵌入式处理器系统
PowerPC 440 Processor Block: PowerPC 440 处理器模块
PowerPC 440 Processor: PowerPC 440处理器
PLB and Memory Crossbar: PLB 和存储器交叉开关
Virtex-5 APU Floating-Point Unit: Virtex-5 APU 浮点单元
in FPGA Logic: FPGA 逻辑内

相关帖子

沙发
星星之火红|  楼主 | 2013-1-3 22:30 | 只看该作者
关于 PowerPC 440 FPU
赛灵思针对嵌入在 Virtex-5 FXT FPGA 中的 PowerPC 440 处理器专门设计了 APU-FPU。FPU 通过 APU 接口与处理器的紧密结合可让浮点运算单元直接执行原生 PowerPC 浮点指令,这相对软件仿真而言,速度一般可提高 6 倍。
除少数情况外,赛灵思 PowerPC FPU 一般符合单精度和双精度浮点运算的 IEEE-754 标准。赛灵思提供了为 2:1和 3:1 APU-FPU 时钟速率而优化的变量,使 PowerPC 处理器能够以最高频率运行。自发性指令发送不仅会隐藏运算时延,而且还会减少每条指令的周期。此外,这些优化的实施方案可充分发挥器件的高性能 DSP 特性,以缩短运算符时延并减少逻辑计数与功耗。赛灵思在其嵌入式开发套件 (EDK) 中支持 APU-FPU 流。
图 2 为 FPU 架构的整体框架图。APU-FPU 由执行单元、寄存器文件、总线接口以及所有管理浮点指令执行情况所必需的控制逻辑组成。

FCB2 Bus: FCB2 总线
FCB2 Bus Interface: FCB2 总线接口
Execution Control/Decode Logic: 执行控制/解码逻辑
Register File & Forwarding: 寄存器文件与转发
Add/Sub/Convert: 添加/子集/转换
Compare: 比较
Multiply: 乘
Divide: 除
Square Root: 平方根
Round: 四舍五入
图 2——Virtex-5 FXT PowerPC 440 浮点协处理器架构

使用特权

评论回复
板凳
星星之火红|  楼主 | 2013-1-3 22:30 | 只看该作者
FPU 含有两个变量。双精度变量可执行除 PowerPC ISA 图形子集(fsel、fres 和 frsqrte)以外的所有浮点指令,其中也包括单精度变量执行的指令。这意味着您能使用带各种商用编译器和操作系统的 FPU(具体请参见: www.xilinx.com/ise/embedded/epartners/listing.htm )。
赛灵思编译器支持的 APU-FPU 单精度变量使用的资源较少。当 FPU 被占用时,双精度操作将通过软件仿真来执行。
将 APU-FPU 连接至 PowerPC 440
有两种方法可将 APU-FPU 连接至 PowerPC 440 处理器:1、利用赛灵思 Platform Studio 设计工具中的 Base System Builder (BSB) 向导;2、将 APU-FPU 单元添加至当前设计方案中即可。
您首先需利用 BSB 向导确定目标板和所期望的处理器(PowerPC 或 MicroBlaze™),然后通过一系列复选框和下拉菜单选择设计中所需的 IP。借助 BSB 向导,能够轻松快速地组装并测试基础处理器系统。您只需勾选您要选择的 FPU 框,即可实现APU-FPU 连接(见图 3 顶部)。该向导可实现一个经过优化能以处理器时钟三分之一速率运行的双精度 FPU。您也可定制更高时钟速率的 FPU 和单精度 FPU。
如果不想使用向导,您也可通过另一种方法来实现,即按照系统组装视图拖动 IP Catalog 下的 APU- FPU IP,然后对 FPU 进行配置即可。图 3 底部图片显示了 IP Catalog (见左下方)和系统组装视图中新添加的 FPU。右击 FPU 并选择 Configure IP,然后您便可选取想要的精度(单精度或双精度)并确定您希望该 FPU 是针对低时延(三分之一时钟速率)或是高速率(二分之一时钟速率)而进行优化;最后将 FPU 连接至 FCB 并将 FPU/FCB 时钟链接至适当的时钟(通常是二分之一或三分之一处理器时钟速率。)

图 3——通过 BSB 向导(顶部)以及系统组装视图将 FPU 添加至现有 PowerPC 处理器设计方案中
让浮点尽在掌握之中
Virtex-5 APU-FPU 提供免费的 Platform Studio,支持浮点定制。您可分别采用约 2500 个或约 4900 个 LUT 寄存器对来实现单或双精度 FPU,也可在无需添加 FPGA 逻辑的情况下运行具有浮点仿真功能的软件应用。
性能水平可预先选择:选择适当的 FPU,或实施设计并确定软件仿真是否满足要求;如未满足,可升级软 FPU。
显而易见,如果能从软件仿真中获得足够的性能,则无需 FPU。但如果需要更高的性能,可使用 APU-FPU。如果应用需要 FPU 或正在使用与之配套的编译器,可选择双精度 FPU。如果应用仅需单精度运算且您正在使用赛灵思 GNU 编译器,则单精度 FPU 会降低逻辑要求。谨记,如果选择双精度 FPU,它将执行单精度运算,然后将运算结果进行四舍五入,以提供单精度 FPU 的精确度。

使用特权

评论回复
地板
GoldSunMonkey| | 2013-1-3 22:53 | 只看该作者
不错。谢谢分享啊

使用特权

评论回复
5
qin552011373| | 2013-1-4 20:39 | 只看该作者
好帖子  使劲顶

使用特权

评论回复
6
GoldSunMonkey| | 2013-1-4 22:54 | 只看该作者
;P

使用特权

评论回复
7
RaiseCom| | 2013-1-12 22:53 | 只看该作者
qin552011373 发表于 2013-1-4 20:39
好帖子  使劲顶

必须的

使用特权

评论回复
发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则

101

主题

1782

帖子

22

粉丝