如果说要从多媒体通信家族中选择一个跟DSP(数字信号处理)渊源最深的成员,那无疑要数音频技术了。屈指数来,将DSP应用于音频信号处理已经有近80年历史,在这漫长的过程中,二者相辅相成,完善自身的同时也推动着对方飞速前行,以致于在诸多方面都取得了巨大成就。
我们这里关心的音频信号主要包括语音和音乐,这是人类社会最基本的交流工具。尽管声音是我们最高效、最便捷的信息交换方式,但是其一些先天的不足妨碍了人们Anywhere, Anytime, to Whoever的交流欲望,为此,先行者们开始寻求弥补这些短板的途径,从而衍生了一系列闪烁智慧光芒且又妙趣横生的新兴技术领域。下面,我们将从声音的缺陷谈开去,顺便看看DSP是如何在克服这些缺陷时发挥功用的:
1、时间上的暂时性:声音是通过发声器具的活动引发的,并通过介质的震动向四周传播。一旦声源发声结束和介质震动停止,声音就消逝不见。如果能使用某种方法将声音存储起来,那我们就有机会反复欣赏某首经典音乐或者某人的激情演说了。因此,存储(Storage)技术将帮助我们克服第一个问题,一个最基本但绝不简单的问题。
在存储技术中,首先需要考虑的是如何用尽可能少的空间保存尽量不失真的声音信号,这通常借助编解码(CODEC)技术来实现。常用的编解码系统可以分为基于波形特征方法(如PCM,ADPCM等)和基于音频模型方法(如CELP,MELP等)。这两种方法结合心理声学,可以产生更复杂但压缩率更高的编解码方法。一个完整的数字编解码系统通常包含如下几个步骤:A/D转换 -> 音频信号分析 -> 编码 -> 存储设备/传输通道 -> 解码 -> 合成 -> D/A转换。随着一系列标准的推出,目前的编码技术越来越成熟,比如适合于音乐信号的MP3(pro)、AAC(+)编解码器已经广泛应用于日常生活中,在不明显降低音质的情况下,MP3能达到10:1的压缩比率。MP3pro,AAC(+)的性能更好。
2、空间上的衰减性:声音是按照幅度与传播距离成反比的方式向四周传播的。因而即便中途没有任何干扰和阻拦,两个距离很远的人也不可能正常通话。为此,人们开始使用通信网络来让声音传得更远。当然,这一切还得归功于Bell发明的电话(一切服务都是先有用户界面再有网络 ——不是我说的)。
现存的通信网络包括POST(公共电话交换网络)和PSN(分组交换网络),前者是当初为了实现电话通信而建立的,而后者是为了数据交换而生。如何让包含音频信号的数据在这两个网络独立或交互传输,以及如何使处于某个网络的用户共享另一个网络上的资源是需要我们关心的另一个话题。
3、干扰影响交流:当你通过电话与某位朋友交流时,周围的人吵闹不休,这将严重影响你们之间的通话效果。如果你们都有一个可以屏蔽噪声的话筒来阻止不相干的噪声传到对方,甚至还有一个耳塞来阻止外界噪声传进你的耳朵,那你们将归于安宁。噪声抑制技术已使得这样的场景成为现实。
按照噪声源的不同,消噪技术可以分为环境噪声抑制、回波消除、解混响等,每一种技术的目的不一样,手段也各不相同。另外,按照信号采集和播放通道的不同,又可以分单通道处理技术和阵列处理技术。目前,由于单通道的环境噪声抑制和回波消除已经比较成熟,但性能不够理想,科研工作者将更多的注意力转向了后者。
在人与人之间交流质量取得飞速进步的同时,人与机器、机器与机器之间基于音频信号的通信也在前行。下面简单介绍一下目前的一些热门领域及其发展状况。
1、音频文件管理:随着互联网的普及和存储设备的不断扩容,建立一个含有海量音频文件的库已经越来越容易,如何让用户很方便地从这个库中得到自己感兴趣的文件是一个很关键的问题。借助于对图书馆的管理经验,我们至少需要3个方面的技术来对这些文件进行管理,即:检索(Indexing)、浏览(Browsing)、搜索(Searching)。首先,我们必须对各种音频文件进行适当的归类,每一类都应该有相同的特征,以便于需要时能及时得到,这个过程称为检索。其次,如何让用户通过某种简单快捷的方式得到他可能需要的那段文件是这个库生存的意义所在。尽管Google提供的文字搜索引擎并不十分精确,但我个人认为它为用户提供了最便捷的途径。当然,现在基于内容的音频搜索技术还不成熟,不可能做到Google那样简洁的用户界面,更多的是借助于文字信息,比如歌曲名字、歌手名字等。最后,当用户得到一个文件时会查看这段文件中是否有他需要的内容,因此他可能会需要一个快速浏览的功能。这好比快速翻阅一本杂志,你可以随意加快或减慢你的浏览速度,里面的内容不会发生改变。对于音频来说,这个功能的实现要复杂得多,但聪明的研究者已经开发出了一种被称为Time Scaling的技术来将其实现。
2、语音识别:让计算机具有听懂语音的能力。语音识别技术不仅要采集到用户说话时产生的声波信号,还需要将其中的语音信息(词、句子)辨识出来。经过几十年的发展,语音识别已经从当初针对特定说话人、小范围孤立词进行识别的低级系统进化到针对非特定人、大范围连续词句进行辨识的高级系统。识别手段也从最初基于特征值向量距离的方法过渡到了基于机器学习的方法。目前的语音识别技术虽然已经取得了长足发展,但仍然不够成熟,受噪声等因素影响,不过许多公司都一致看好该技术的市场前景,Microsoft、IBM等巨头均在此投入了大量人力物力。
3、自然语音理解:让计算机具有理解语音的能力。如果语音识别系统已经准确无误地获取了用户地语音信息,通过自然语音理解技术,这些信息将会被转化为计算机能够理解的信息,以控制其做出相应的响应。做个不恰当的比喻,如果说语音识别获得的语音信息相当于源代码,那么自然语音理解模块就相当于一个编译器。但是人们日常交流的口语并一定会按照语法准则,这是自然语音理解面临最大的挑战之一。
4、语音合成:让计算机具有说的能力。计算机本身并不具备人类的发声器官,因此只能模拟发声器官来合成语音。语音合成技术本来是一个比较古老的话题,最早可以追溯至1928年Bell实验室的Dudley发明的VOCODER。最近出现的一门新兴技术是文本-语音转换(TTS),即按照给定的文本来产生自然语音,这需要计算机能理解文本内容,由此模拟人说话时的声调、停顿、强调等因素。目前这项技术已经比较成熟,Microsoft已经将其集成在OUTLOOK等系统中。
通过对DSP应用于音频信号处理领域的回顾,我们仿佛看到了一对恋人从相识到初恋、从蜜月期到逐渐成熟稳定的全过程。在这个版块里,我愿意与大家一道分享这个中的幸福滋味,并试图让其碰撞产生的火花惠及更多人。 |