【理论到操作实现】让AI玩具机器人等智能硬件在嘈杂环境中只听我说话
【理论到操作实现】让AI玩具机器人等智能硬件在嘈杂环境中只听我说话前言本文分享的小聆AI相关的语改善音理论和声纹技术主要是用来提升 AI 智能玩具、机器人等智能硬件在实际场景的语音交互体验。在用户使用中通常会遇到这些问题:1、身边人交谈干扰;2、用户发音模糊;3、玩具碰撞声、哭闹声等突发高频噪声易被声学 VAD 误判为语音;4、呼吸声、风声等高频干扰导致语音失真。针对这些影响人机交互的常见问题,小聆AI做了对应处理,并在小程序端增加了单独人声虑噪的配置功能,大家按照文章中的步骤操作即可自主实现智能硬件。下方视频为实际人机交互场景中的率噪效果。video(46).mp4 单独人声虑噪的实现理论为保证AI玩具机器人等智能硬件在嘈杂环境中只听“我”说话的效果,从以下几点进行了优化:1、语音VAD优化:消除非人声噪声,不响应常见家居噪声(如风扇、电视等)2、声纹过滤:对人声进行声纹对比,只保留指定声纹的音频3、语义VAD噪声过滤:分析上下文语义,用户附和时不打断播报,用户犹豫、停顿延长拾音时间 实现步骤1、准备一个语音交互硬件,可以是CSK6大模型开发板、聆思Arcs mini大模型MCP开发板、也可以是ESP32语音模组https://wdcdn.qpic.cn/MTY4ODg0OTk2NTM5NzUxOA_895224_t3dasuSbqlwU_UAw_1760515259?w=478&h=516&type=image/png 2、打开“小聆AI”小程序,点击添加设备,选择对应硬件按提示操作即可完成绑定进行配置 (ESP32的开发板可以选择【开源套件】)https://wdcdn.qpic.cn/MTY4ODg0OTk2NTM5NzUxOA_666112_O8VE-DNNbD0fRYiZ_1760515772?w=681&h=353&type=image/png 3、绑定成功后,进入【语音识别配置】→【识别模式】→ 【仅识别已注册声纹的用户】https://wdcdn.qpic.cn/MTY4ODg0OTk2NTM5NzUxOA_513032_xn41if_62oDWrqHG_1760515699?w=1031&h=462&type=image/png识别默认默认为【所有人】识别已注册声纹的用户:在连续交互模式下,仅识别已注册声纹的用户语音,如果只想让AI语音只回复指定人可以选择这项识别唤醒设备的用户:在连续交互模式下,仅支持唤醒设备的用户继续交互,其余人的语音将不会被识别(可以理解为AI语音只回复用名字叫醒它的那个人) 4、点击【确认】后,进入声纹注册页面,点击【开始录音】,按文本读完后点击创建即可。https://wdcdn.qpic.cn/MTY4ODg0OTk2NTM5NzUxOA_847549_ru6ESFZTryFrGZ-O_1760517180?w=1010&h=607&type=image/png 5、声纹创建成功后会进入声纹对应的【编辑画像】界面,这个页面可以手动填入声纹主人的兴趣爱好、需要AI长期记忆的内容。https://wdcdn.qpic.cn/MTY4ODg0OTk2NTM5NzUxOA_992719_84zOmqp46zNUP5xa_1760517268?w=879&h=704&type=image/png画像编辑完成后返回【识别模式】界面,选择【仅识别已注册声纹的用户】即可实现视频中的效果。 小聆AI语音交互的更多资料和玩法实现参考小聆AI详细配置参考:https://docs2.listenai.com/x/S_TEd8h7C零代码克隆原神可莉实现桌面陪伴参考: https://docs2.listenai.com/x/x7CVdoQI3更多个性配置方法可以参考官方开发文档:https://docs2.listenai.com/x/S_TEd8h7CCSK6大模型开发板的硬件资料:https://docs2.listenai.com/x/nTn9kMMCU
页:
[1]