关于语音识别的瓶颈

1万 · 2018-10-25 12:52

我想确认一下当前语音识别技术的最大瓶颈是什么呢

1万 · 2018-10-25 12:59

在强噪声干扰的情况下，目前的语音识别系统还很难达到实用化要求。在自然发音、噪声、口音等复杂条件下，语音识别的准确率明显下降。此外，语音的训练和测试用数据的匹配也并不十分契合。

想要解决环境复杂的问题，除了高超的技术之外，声学模型自适应等也是不错的方式。对于匹配问题则可以更加偏向研究方向，对语音本质进行更为深入的理解。

例如在人类的听觉系统中，存在一种“**尾酒会效应”：人类在具有背景噪声干扰的情况下，依然能够将注意力集中在某一个人的谈话上。可以将人类听觉系统的这种功能赋予语音识别系统，但就目前的技术而言依然很难实现。

同时，远场识别也依然是个充满挑战性的问题。当前，语音识别的远场错误率是近场的两倍左右。因此，解决远场及强噪声干扰情况下的语音识别是当前的一个有待进一步研究的问题。

1万 · 2018-10-25 12:59

对于这个问题，目前的主要解决方法是语音识别和麦克风阵列相结合。通过阵列信号处理技术，增强多通道语音技术，而后利用深度学习的方法进行声学建模。当然，这种方案有待于进步和优化，并且要考虑多方面的问题。如怎样将阵列信号处理技术和深度学习方法相结合，利用阵列信号处理的相关知识指导深度神经网络的结构设计，以便直接从多通道语音信号中学习多通道语音增强方法，而后和后端声学模型联合优化等。

另外，个体发音以及用词习惯都存在差异性，所以如何使得语音识别更加智能化也是一个问题。

可以看到，语音识别已经走到一个相对成熟的发展阶段，未来也会在应用级市场普及，但在发展过程中仍然存在许多瓶颈。生物技术识别方式先进而便捷，但人们不免担心其中所涉及到的隐私问题。