基于DSP和FPGA的视频编码器

只看该作者 · 2018-7-4 10:30

基于DSP和FPGA的视频编码器

随着宽带Internet的快速发展和电子设备计算能力的迅速提高,在Internet上实时传输高清晰度视频信息成为可能,以Internet为传输媒介的视频会议、视频监控、Internet电视台等视频应用方兴未艾。这些应用的一个共同特点是,都需要一个高性能的实时视频编码器,特别是高分辨率的视频应用给视频编码器的计算能力提出了很高的要求。例如,一幅720×576的4∶2∶2视频格式的画面,包含有3240个16×16的YUV宏块(MacroBlock,即MB)。如果该视频帧按照P帧或者B帧进行压缩,那么每一个YUV宏块都要进行运动估计、运动补偿、DCT(Discrete Cosine Transform)/反DCT变换、量化/反量化和VLC(Variable Length Coding)等环节的运算。如果进行实时压缩(每秒钟压缩25帧)的话,大致需要316～5GIPS(Instruction persecond)的计算能力。

目前,单一的CPU/DSP一般还不具备这样的计算能力。为了解决高清晰画面的实时视频压缩问题,本文提出了DSP和FPGA(Field Pro-grammable Gate Array)协同设计方案。使用FPGA完成视频采集、YUV(视频亮度Y、色度分量UV)分离、数据I/O(Input/Output)等所有周边功能,使用高性能的DSP进行视频压缩编码,因而在视频编码器内DSP和FPGA能够进行流水操作,有效地提高了编码器的性能。
为了降低算法的计算复杂度,本文提出了基于宏块空间复杂度的宏块编码类型判别算法(MTJBSC)。在标准MPEG24视频运动估计算法中,判别宏块的编码类型是通过计算当前宏块内像素值方差和参考宏块与当前宏块之间的方差来实现的,因此计算量很大。MTJBSC算法首先计算出当前宏块的空间负责度(MBC),然后通过比较当前宏块的MBC与SAD(Sum of Absolute Difference)值来判断当前宏块的编码类型,大大降低了算法的计算复杂度。

1 硬件设计方案
基于TI公司的图像开发工具包(Imaging Developer Kit,即IDK)架构,设计了视频编码器的硬件平台。从整体上来讲,视频编码器的硬件实现由DSP和FPGA两个模块组成,其逻辑框图如图1所示。由于视频压缩编码计算量很大,为了尽可能提高视频压缩帧率,由DSP专门负责视频压缩编码,而视频采集、YUV转换和编码器I/O接口等其它功能则交由FPGA模块来实现。

如图1所示,用户控制命令(例如视频压缩模式)由FPGA模块首先截获,然后FPGA模块向DSP模块产生外部中断,DSP在响应中断时读取存储在FPGA中的用户控制命令字,然后DSP解析命令字,并根据用户要求的视频格式、帧图像分辨率和视频压缩码流速率进行视频压缩编码。
模拟视频信号经视频解码器转换为裸视频数据流,该数据流(或从数字摄像机直接获得的数据流)经FPGA预处理后送入帧存中。DSP读取帧存中的数据进行压缩编码,压缩后的视频数据送入FIFO中,最后FIFO中的数据通过串口送给信道编码器。

FPGA模块的逻辑框图见图2。如图2所示,视频解码器首先将模拟视频信号量化为复合的YUV数据,然后经FPGA进行YUV分离(和滤波)后送到帧存(图1中的SDRAM1)中,C6201使用DMA通道(异步方式)通过FPGA读取帧存中的YUV数据进行压缩编码。帧存(SDRAM1)在刷新(refresh)或缺页(pagemiss)时会引起DMA读等待,为了平滑这种等待引起的DMA读数据的抖动,设计时在FPGA的内部实现了一个高速FIFO。视频帧存采用了乒乓结构,将8M字节SDRAM分为两个4M字节的地址空间(每一个地址空间可以容纳一帧YUV视频数据(720×576×115字节)),一个地址空间用于存储当前正在采集的视频数据,另一个地址空间用于DSP的数据读取。在压缩CCIR601格式的视频图像(每秒25帧)时,由于DSP的处理速度(大约每秒10帧)慢于视频采集的速度,所以FPGA模块在采集完一帧数据进入等待状态,直到DSP压缩完上一帧视频数据时,这2个地址空间才进行互换。

DSP模块接收FPGA模块送过来的YUV视频数据,然后进行视频压缩编码,最后将压缩的码流再转交给FPGA模块,由FPGA模数据发送出去。DSP模块的存储单元(图1中的SDRAM2)用来存放参考帧数据和中间运算结构。MPEG-4压缩编码算法指令存放在PROM中,为缩短取指时间,编码器在启动时已将指令从PROM读到片内存储器中。MPEG压缩码流是变速码流(VBR),而当该码流在恒定速率(CBR)的信道上发送时,需要一个FIFO缓存来平滑编码器输出码率的波动。

该设计的特点主要表现在以下2个方面:
①可扩展性好。FPGA模块除了负责数据I/O功能外,还作为协处理器使用,可根据需要增加FPGA的门数来实现原来由DSP完成的功能,例如Huffman编码、运动估计等;
②灵活的视频压缩编码格式控制,编码器能够实时地根据用户的要求进行压缩编码。

2 视频压缩算法优化

(1)MPEG-4数据流优化设计
实验表明,如果代码和代码要访问的数据在C6201片内存储区(PRAM和DRAM),其代码执行速度要比代码和数据在片外同步SDRAM中平均快17倍(片内总线宽度为256位,数据访问为1个CPU周期)。因此,将执行代码和数据放到片内将大大提高程序的运行速度。
在MPEG-4算法中,由于没有考虑存储器的限制,算法每次读入一帧YUV数据进行压缩编码。但对于C6201来说,片内只有64K字节DRAM,不可能一次将一帧数据读到片内存储器进行压缩。如果将一帧数据一次读到片外存储器(SDRAM)中进行压缩,又会大大降低代码的执行速度,因此,我们对视频压缩算法进行了改进,一次对一个切片(slice)数据进行压缩编码,并将压缩码流数据直接送入到发送缓冲区中。
编码器一次将一个切片的YUV数据(当前帧)读入到片内存储器中,然后根据计算决定切片宏块的编码类型(帧内/帧间编码)。如果宏块进行帧内编码,则YUV数据被分成8×8的像素块(一个宏块包含4个Y分量像素块和2个UV分量像素块)进行DCT变化,以消除图像空间冗余信息。DCT变化后的系数经过量化后进行游程编码(RunLengthCoding即RLC)和变长编码(VariableLengthCoding,即VLC),变长编码的结果送入到视频发送缓冲区中。与此同时,量化后的DCT系数经过反量化(结果放入内存B中)和反DCT过程形成重建帧,重建帧用作下一帧的参考帧。
如果宏块进行帧间编码,则以宏块为单位进行运动估计,根据运动估计的结果建立预测帧。当前帧和预测帧的差值形成了残差帧(residue frame),残差帧的编码过程与帧内编码过程相同。

(2)宏块编码类型判别算法
在MPEG-4算法中采用了快速运动估计算法,但是在进行宏块编码类型判别时计算量仍然很大。为此,本文提出了基于宏块空间复杂度的判别算法MTJBSC,进一步降低了运动估计过程中的计算量。
在编码P帧宏块的时候,首先要决定宏块是进行帧内编码还是帧间编码。在标准MPEG-4算法中是通过以下方法决定的[5]:
设参考宏块的像素值(Y分量值,以下同)用P(x,y)表示,当前宏块的像素值用C(x,y)表示,x,y表示宏块的纵、横坐标,M,N表示宏块的宽和高。当前宏块像素值的方差用EVAR表示,其值为

参考宏块和当前宏块的方差用EVMC表示,其值为

EVMC值越小(比如EVMCEVARandEVMC≥9)then帧内编码else帧间编码
显然,在MPEG-4算法中,为了判断宏块的编码模式进行了大量的计算(对于每一个P帧宏块都要进行上面的计算)。为了减少计算复杂度,本文提出了基于宏块空间复杂度(EMBC)的宏块类型判断(MTJBSC)算法,用以判断P帧宏块的帧内/帧间编码模式。
定义宏块的空间复杂度为水平方向上相邻像素差值的绝对值之和,即

在基于帧间差原理进行视频压缩的MPEG标准中,一般都是采用绝对差总合(ESAD)来进行运动估计的。在MPEG标准中,宏块的ESAD值定义为

式中:m,n为该宏块的运动向量。
根据上述定义,MTJBSC算法可简单描述为:
如果宏块的ESAD小于其EMBC,则该P帧宏块进行帧间编码;否则进行帧内编码。实验表明,在压缩质量和压缩输出码率均没有大的变动的情况下,该算法有效降低了视频编码器的计算复杂度,编码器的压缩帧率(f/s)得到明显提高。

3 测试结果
表1为编码器进行装载测试的测试结果(1帧的平均值)。装载测试是首先将视频测试序列装载到编码器的SDRAM中,然后进行压缩编码。使用的视频序列为标准测试序列mother(CIF格式,彩色,YUV4∶2∶0,5帧),DSP主频设置为200MHz。

4 结论

采用DSP和FPGA协同技术设计实现了一个高性能的MPEG24视频编码器。使用FPGA完成编码器I/O功能,使用DSP进行视频压缩编码,二者能够很好地并行工作,系统设计结构简捷,硬件工作可靠。同时,针对DSPC6201片内资源特点优化了视频压缩的数据流模式,采用MTJBSC算法有效地降低了压缩算法的计算复杂度。测试结果表明,采用MPEG24视频标准该视频编码器每秒能够每秒压缩39.2帧CIF图像。

只看该作者 · 2018-7-4 10:31

基于DSP和FPGA的视频编码器

基于DSP和FPGA的视频编码器

相关下载

相关帖子