基于FPGA+DSP架构的高速通信接口设计与实现
在雷达信号处理、数字图像处理等领域中,信号处理的实时性至关重要。由于fpga芯片在大数据量的底层算法处理上的优势及dsp芯片在复杂算法处理上的优势,dsp+fpga的实时信号处理系统的应用越来越广泛。adi公司的tigersharc系列dsp芯片浮点处理性能优越,故基于这类。dsp的dsp+fpga处理系统正广泛应用于复杂的信号处理领域。同时在这类实时处理系统中,fpga与dsp芯片之间数据的实时通信至关重要。
tigersharc系列dsp芯片与外部进行数据通信主要有两种方式:总线方式和链路口方式。链路口方式更适合于fpga与dsp之间的实时通信。随着实时信号处理运算量的日益增加,多dsp并行处理的方式被普遍采用,它们共享总线以互相映射存储空间,如果再与fpga通过总线连接,势必导致fpga与dsp的总线竞争。同时采用总线方式与fpga通信,dsp的地址、数据线引脚很多,占用fpga的i/o引脚资源太多。而采用链路口通信不但能有效缓解dsp总线上的压力,而且传输速度快,与fpga之间的连线相对也少得多,故链路口方式更适合于fpga与dsp之间进行实时数据通信。
1 ts101和ts201的链路口分析与比较 ts101和ts210都是高性能的浮点处理芯片,目前两者都广泛应用于复杂的信号处理领域。ts201是继ts101之后推出的新型芯片,核时钟最高可达600mhz,其各类性能也相对优于ts101,而且ts201的链路口采用了低压差分信号lvds技术,功耗更低、抗噪声性能更好。表1列出了两种芯片链路口性能的详细比较,其中ts101核时钟工作在250mhz,ts201核时钟工作在500mhz。
由于ts101收发端共用一个通道,所以只能实现半双工通信。而ts201将收发端做成两个独立通道,可实现全双工通信,理论上数据的传输速率可以提高一倍。虽然ts201的链路口收发通道独立,但实际上二者的收发机制大体相同,都是靠收发缓存和移位寄存器收发数据。然而fpga内部的链路口设计不必拘泥于此,只要符合链路口通信协议并达成通信即可。
2 fpga与dsp的链路口通信 2.1 链路口通信协议分析 ts101的链路口共有11根引脚,通过8根数据线(lxdat[7..0],这里x可以是0、1、2或3,代表ts101或ts201的0号~3号链路口中的一个,以下同)进行数据传输,并采用3根控制线(lxclkout、lxclkin、lxdir)来控制数据传输时钟、通信的握于和数据传输方向。其中lxdir为通知链路口当前工作状态是接收或发送的输出引脚,可悬空不用。ts201的链路口共24根引脚,接收和发送各12根引脚,通过lvds形式的数据线(lxdat_p/n[3..0])和时钟线(lxclk_p/n)进行数据传输,并采用lxack和lxbcmp#(‘#’代表信号低有效)来通知接收准备好和数据块传输结束。 采用fpga与dsp通过链路口通信的关键是令双方通信的握手信号达成协议,促使数据传输的进行。实际上,如果考虑ts201的lvds信号形式已经被转换完毕,则ts101和ts201链路口传输的数据形式是一样的,都是时钟双沿触发的ddr数据,并且每次传输的数据个数都是4个长字(即128bit)的整数倍。鉴于以上两种芯片链路口数据的共同点,所以采用fpga与两类芯片通信时,接收和发送的数据缓存部分的设计应该是很相近的,只是通信握手信号部分的设计应当分别加以考虑。下面分别给予介绍。
2.2 基于fpga的ts101链路口设计 图1给出了fpca与ts101进行半双工链路口通信的设计(对lxclkout、lxclkin均以fpca的角度来叙述),该接口由接收、控制和发送三部分组成。本设计fpga时钟为40mhz,ts101核时钟上作在250mhz,链路口时钟设定为dsp核时钟的8分频,fpga与dsp的实际数据传输率为62.5mbps。
(1) 接收部分:由编码和缓存两部分组成。由于链路口的数错是ddr形式的,不方便数据的缓存,本文采用quartusii megafunctions中的altddio模块将上升沿数据和下降沿数据分开。注意这个模块的下降沿数据输出会滞后上升沿数据1个时钟周期,输出时应该用链路口时钟信号(lxclkin)通过d触发器来将数据对齐。该模块的inclock一定要用链路口时钟信号以保证数据的正确读取,如图2所示。又由于dsp内部数据是32位的长字,所以写入接收缓存前应该用一组d触发器将数据进行32bit对齐,这里注意dsp链路口先传输32位数据中的低8位。
(2) 控制部分:由令牌转换模块和控制模块组成,是整个设计的核心部分,完成对各部分的控制和与fpga内部进行通信(通过ctl一组信号)。ts101的链路口通信握手是靠两根时钟信号验证令牌指令完成,即当发送端驱动原本为高的lxclkout信号为低电平,以此作为令牌请求向接收端发出。如果接收端准备好接收,则接收端驱动lxclkin为高;如果令牌发出6个时钟周期后,lxclkin信号仍然为高,则肩动数据传输(以上时钟信号都以发送端视角分析)。本设计中,令牌转换模块负责验证令牌和发送令牌。这里要注意,由于 用来验证令牌低电平个数的时钟信号(pll_32ns)是由fpga时钟信号(clk)通过锁相环倍频得到,与dsp链路口时钟异步,故验证令牌时,当计数器计到5个低电平时即可认为已达成通信握手,否则可能会丢失数据。达成握手后通知控制模块向接收或发送缓存输出控制信号,其中接收控制信号包括写缓存时钟和写使能。发送控制信号包括读缓存时钟、读使能和dsp中断信号(dsp_irq),其中写缓存时钟通过对链路口时钟分频得到,读缓存时钟由锁相环倍频fpga工作时钟得到。
(3) 发送部分:与接收部分类似,也南编码和缓存两部分组成,相应的设计基本相同,这里不作过多介绍。由于dsp链路口每次传输数据个数的最小单位是4个32位字,即8个链路时钟周期,所以发送时钟廊该每8个时钟周期一组,以凑够128bit,避免传输错误,其中多余无效的数据dsp可以自行舍去。发送部分采用dsp外部中断方式而不是链路口中断方式通知dsp接收数据。 ts101的链路口通信协议要求链路口接收端在传输启动一个周期后,将其lxclkout拉低,若可以继续接收,在下一个周期再将其拉高,以此作为连接测试。实际运行中发现,当fpga接收数据时,可将lxclkout信号一直驱动为高,不必做特殊的连接测试也能正确接收数据。另外,发送链路口数据时,由于发送缓存中已经对应仔好了要发送的8bit数据,故可以使用对fpga时钟信号(clk)倍频得到的pll_16ns信号来读发送缓存,读出的数据即链路口发送数据,再对pll_16ns信号的下降沿分频得到链路口的发送时钟信号。 限于篇幅,本文只给出fpca接收ts101数据的时序图,如图3所示。lxclkin、lxdat[7..0]是dsp的链路口输出时钟和数据,lxclkout是fpga的回馈准备好信号。仿真中链路口数据采用1f~3e(十六进制)的32个8bit数据,即从2221201f到3e3d3c3b的8个32bit数据;pll_32ns信号是fpga内部锁相环产生的与dsp链路口时钟异步的32ns时钟信号,用来校验令牌指令;w_fifo_en信号足写缓存使能信号,当令牌验证后使能接收缓存;dsp_dat信号是dsp通过链路门传输的32bit数据,通过对链路口数据的编码得到;w_buf_clk信号由链路口时钟分频处理得到,将上升沿对应的32bit dsp数据写入接收缓存,完成接收过程。
2.3 基于fpga的ts201链路口设计 图4给出了fpga与ts201进行链路口通信的设计框图。由于ts201的握手信号较多,所以相对ts101的链路口设计容易些。本设计fpga时钟50mhz,ts101核时钟500mhz,链路口时钟为dsp核时钟的4分频,采用4bit方式,单向实际数据传输速率为125mbps。
ts201的链路口数据和时钟采lvds信号,具有速率高、功耗低、噪声小的优点。cyclone系列芯片不仅支持lvds信号,还集成了lvds转换模块,这给设计提供了很大方便。应该注意的是,在硬件设计时lvds信号两极的pcb走线要匹配,并且注意匹配电阻网络的接入。 ts201的链路口有1bit和4bit两种传输方式,本文以4bit为例进行设计。图4给出的信号都是经lvds转换后的信号。由于ts201的收发做成了两个单独的通道,fpga的设计也应该相应地设计为两个通道,真正做到全双工通信,收发互不影响。接收与发送部分与ts101的设计基本相同,发送部分也采用外部中断方式通知dsp接收链路口数据。ts201的通信握手信号有ack和bcmp#信号。其中ack信号用来通知接收准备好,在实时信号处理中,一般不允许数据传输的等待,故将这个信号置为准备好。bcmp#信号用于通知数据块传输的结束,当能确定dma传输数据个数时,可以将此引脚悬空。
ts201链路口的收发机制非常相似,本文仅给出发送数据时序图,如图5所示。l1_irq是fpga发给dsp的外部中断,用来通知dsp收数据;l1_acki是dsp的接收准备好信号;r_buf_en是读发送缓存使能信号;链路口时钟l1_clkout是以读缓存时钟r_clk下降沿的二次分频,对应从缓存中读出的4bit链路口数据l1_da-to。注意这里读缓存及时钟分频时会有纳秒级的延迟。
3 dsp的相应设置 ts101和ts201的链路口都配置了控制寄存器(lctlx)和状态奇存器(lstatx)两组寄存器。lctlx用来控制链路口的传输,lstatx用来通知链路口的工作状态。ts101链路口时钟频率可以是核时钟的8、4、3或2分频,通过设置lctlx中的sp d位米完成,本文设计将spd位置000,即为核时钟8分频。由于ts201的接收发送通道独立,所以其控制寄存器分为接收控制寄存器(lrctlx)和发送控制寄存器(ltctlx)。ts101链路口发送时钟频率可以与核时钟相同或为其4、2、1.5分频,通过设置ltctlx中spd位来完成。本文设计将spd位置100,即为核时钟4分频,并将lrctlx/ltctlx中(接tdsize位置1,设置成4bit传输方式。如果bcmp#信号悬空,注意一定要将lrctlx巾rbcmpe位置0。 有两种方法启动dsp的链路口dma传输:利用链路中断和利用dsp的四个外部中断(irq0~irq3)。两种中断方式都需要在中断服务程序中对dma的tcb寄存器进行配置来启动链路口的接收dma通道。鉴于外部中断的优先级高于链路口中断,可以避免数据丢失,本文设计的通信方式均以外部中断方式通知dsp接收数据。在dma的tcb寄存器配置过程中,为了保证程序不被其他中断打断,可以在中断服务程序开始时就把所有其他中断屏蔽掉,存中断服务程序返回之前再把屏蔽掉的中断位还原。 本文对tigersharc系列的两种典型dsp芯片的链路口进行了分析和比较,并给出了fpga与这两种dsp芯片进行链路口通倍的具体方法。在fpga内部实现了dsp链路口的设计,同时给出了dsp进行链路口通信的具体设置方法。由于实时处理中数据的重发会严重影响处理的实时性,故本文的链路口通信设计没有对所传输的数据进行校验。本文给出的基于fpga路口设计具有很强的通用性,可以应用于基于ts101/ts201的多种应用系统中,提高系统内部的通信能力;也可用于板间dsp的数据传输,提高系统外部的通信能力。
|