输入的模拟语音先通过预处理,包括预滤波、采样、量化、加窗、端点检测、预加重等。语音经过预处理后进行特征提取。在训练阶段,对提取的特征进行相应的处理后就可以获得参考模型。识别阶段,语音通过同样的通道获得特征参数,生成测试摸型,之后将测试摸型与参考摸型进行匹配,从而根据判决逻辑获得判决结果。
2.1 语音信号的端点检测
语音信号的端点检测目的是去除语音信号中的噪声段。端点检测从很大程度上影响到识别率。常用方法有短时能量法,短时过零率法和双门限法等。本系统选用双门限法,实验表明,效果优于前两种方法。在双门限方法端点检测中,阈值的选择尤为关键,该系统的语音采样频率设为8 kHz,语音分帧为每帧80个点。经过多次实验,这里短时能量低阈值通过式(3)的动态方式得到,高阈值设为低阈值的5倍。而过零率的阈值选取应充分考虑到噪声的影响,通过大量实验发现系统中噪声的过零率一般不超过5,所以对过零率的阈值选取为25,取得了很好的效果,准确率达到95%以上。
ITU=0.03(amp_max-amp_min)+amp_min (3)
在端点检测过程中有时会遇到突发性的干扰噪声,这种噪声持续时间很短,一般小于5 ms。为了消除这种干扰,这里用检测后的起止长度判断它是不是语音。如果所检测到的语音长度足够的短,则可以把它当成是噪声。
|