2 KWS实现原理 2.1 关键词识别KWS
一个典型的 KWS 系统由一个特征提取器和一个基于神经网络的分类器组成,如下图所示。首先,长度为 L 的输入语音信号被分成长度为 l 且步幅为 s 的重叠帧,总共有帧T帧。
T=(L-l)/S+1
从每一帧中提取 F 个语音特征,则长度为 L 的整个输入语音信号总共生成 T × F 个特征。Log-mel filter bank energies (LFBE) 和Mel-frequency cepstral coefficients (MFCC) 常用于基于深度学习的语音识别,特别适用于传统语音处理技术。使用 LFBE 或 MFCC 进行特征提取涉及将时域语音信号转换为一组频域频谱信号,从而实现输入信号的维度压缩。提取的语音特征矩阵服务于输入分类器模块,该模块导出所输出分类的概率。在需要从连续音频流中识别关键字的实际场景中,利用后端处理模块可以在一段时间内平均每个输出类的输出概率,从而提高预测的整体置信度。