本方案提供英文数字语音机器学习辨识功能,并提供可快速创建人机接口的图形化开发平台,语音识别结果可透过新唐开发平台创建高质感人机互动画面。
语音控制电子设备已经是一股势不可挡的潮流,其优势在于电子设备可以免持控制、在不方便按键的环境下操作等优点。本方案使用Google TensorFlow作为深度学习用于语音识别的算法开发环境,并在NuMaker-PFM-M487平台上实现语音识别功能,以关键词识别(KeyWord Spotting)的范例程序实现可脱机且实时的语音识别系统。 一套完整的深度学习语音识别系统需要使用两个平台,如图1-1,一为PC端平台,利用TensorFlow与Python撰写完整的深度学习程序代码并训练模型,因本方案使用监督式学习(SupervisedLearning)(注1)模式,因此需提供系统大量的训练数据和卷标(Labels),接着将撷取到的特征用深度神经网络(DNN)模型进行训练,并反复修正训练模型,直到模型达到系统优化状态;二为NuMaker-PFM-M487平台,利用PC所建的深度学习模型与训练结果(模型参数),在NuMaker-PFM-M487平台完成可实时的语音识别系统。 图 1-1 语音识别系统流程图 本方案辨识的关键词为10个英文数字:One, Two, Three, Four, Five, Six,Seven, Eight, Nine, Zero,使用NuMaker-PFM-M487开发板并搭配M487 emWin GUI开发平台呈现语音识别结果,当用户对着麦克风说「One」,此方案的LCD面板上会正确地显示的关键词「One」。
注1:监督式学习(Supervised Learning):所有的问题都有对应的标准答案,亦即用户先将数据做卷标(Label)并在训练的过程中告诉机器对应的答案。 相关IC/平台: 1. M487 2. NuMaker-PFM-M487 3. NuMaker emWin M487
|