语音辨识 语音识别系统的核心,应具有硬件要求少,自含时间矫正,和能量矫正的特点。目前已实际应用的为小辞汇量(200字)系统的独立语音识别,中辞汇量(1800字)的核心亦完成。在自动语音识别的发展方向上,将集中於发展语音控制技术,而非语音输入技术。重点在于首次识别的准确率,而非混合语意的辅助识别。
语音编、解码 由于在DSP具有语音处理上的强大功能,因此才有可能在语音编码的设计、使用上,偏重使用压缩比较高的“编码激励线性预测”(CELP)型算法。目前使用的开放标准为ITU的G.723.1,这种算法广泛使用于IP的编解码上,具有6.3Kbps和5.3Kbps两种传输率,语音品质高,抗噪声能力和计算负荷适中。可提供用户使用於各种平台上。同时,专属的2.4Kbps的语音编码算法也在开发中,预计该算法将在语音品质、抗噪声能力、语音压缩比、计算负荷、计算延时上取得更好的平衡。因以硬体性能不断的提升,会适配较大的计算量的编码方式,根据信息论的原理,若在不降低确定的信号指标的条件下,如果采用高的压缩比方式则必然相对的应用大运算量的编解码方式,以在高压缩比的情况下取得较好的音频性能。
回声抑制 在长距离通讯及活动通讯中,经常会被回声所困扰。无论是线性回声,或是音响回声,当延时超过0.5秒 ,都会在接收端清晰的收到。针对这两种现象,各有适用的回声抑制算法。基于DSP的算法稳定、简洁,不但抑制响应速度快,而且对Double Talk、Near-End-Speech及静音状态,皆能保持降噪性能。同时因为线性回声时间延迟可在1毫秒到900毫秒的大范围内变动,同样有基于DSP专属的算法来克服这种变异性对系统带来的额外负荷(在传统的回声抑制系统中,300毫秒的延时意味者系统性能价格比的急剧劣化)。而这些算法的源代码亦能应用在各种通讯平台上,解决长程通讯各环节所产生的问题。
音乐讯号处理 自从数字化的音乐规范开始流行后,因数字信号处理所附带的弹性因素,已在影音讯号的储存 、传送、播放上,产生了许多开放规范和专属规范。对使用者而言,它们带来的效果,除了更耐久更廉价的储存媒介、更多元化的接收管道外,也包括更绚丽的视听效果。但在终端获得和原始影音信号源相当的影音效果,到目前为止都仍然是昂贵且不见得有效的。为了实现所谓的“环场音效”,目前已有诸如Dolby Surround、Dolby ProLogic、AC-3 、THX等各式开放规范,也有商品化的解码晶片。但整个环节中最弱的一环,是在由扬声系统到人耳的这一段。这一段的传递函数因不同的听音者,不同的听音环境而随机的改变,甚至差异极大。原始录音工程师的心血,在这一段经常被糟蹋无遗。而且和传统音响系统相同,这个性能最不容易把握的环节,往往也是投资昂贵的一个环节。
针对这一环节,DSP提出的解决方案。是独立于上述开放规范之外,来建立一个近似环场音效系统,在信号后期处理阶段,则以更人性化的双声道,来模拟上述规范所要求的四加一或五加一声道的要求,并
且以DSP动态的 补偿声场的变异,基本上可以做到使用一个低成本基于DSP技术的系统去替代昂贵的非DSP的高档系统,完整还原原始录音效果。(如图-3) 总结 DSP以其强大的运算能力及优良的性能价格比已经成为越来越多的数字化视音频设备的核心构件,随着科技的进步,DSP技术的日益完善,相信DSP的未来就是数字化音频领域的未来。
|