[其它] 【理论到操作实现】让AI玩具机器人等智能硬件在嘈杂环境中只听我说话

[复制链接]
78|0
ListenAI 发表于 2025-10-15 17:52 | 显示全部楼层 |阅读模式

理论操作实现AI玩具机器人智能硬件在嘈杂环境中前言
本文分享的小聆AI相关的语改善音理论和声纹技术主要是用来提升 AI 智能玩具、机器人等智能硬件在实际场景的语音交互体验。在用户使用中通常会遇到这些问题:1、身边人交谈干扰;2、用户发音模糊;3、玩具碰撞声、哭闹声等突发高频噪声易被声学 VAD 误判为语音;4、呼吸声、风声等高频干扰导致语音失真。针对这些影响人机交互的常见问题,小聆AI做了对应处理,并在小程序端增加了单独人声虑噪的配置功能,大家按照文章中的步骤操作即可自主实现智能硬件。下方视频为实际人机交互场景中的率噪效果。
video(46).mp4
单独人声虑噪的实现理论
为保证AI玩具机器人等智能硬件在嘈杂环境中只听“我”说话的效果,从以下几点进行了优化:
1、  语音VAD优化:消除非人声噪声,不响应常见家居噪声(如风扇、电视等)
2、  声纹过滤:对人声进行声纹对比,只保留指定声纹的音频
3、  语义VAD噪声过滤:分析上下文语义,用户附和时不打断播报,用户犹豫、停顿延长拾音时间
实现步骤
1、  准备一个语音交互硬件,可以是CSK6大模型开发板、聆思Arcs mini大模型MCP开发板、也可以是ESP32语音模组
2、  打开“小聆AI”小程序,点击添加设备,选择对应硬件按提示操作即可完成绑定进行配置 (ESP32的开发板可以选择【开源套件】)
3、  绑定成功后,进入【语音识别配置】→【识别模式】→ 【仅识别已注册声纹的用户】
识别默认默认为【所有人】
识别已注册声纹的用户:在连续交互模式下,仅识别已注册声纹的用户语音,如果只想让AI语音只回复指定人可以选择这项
识别唤醒设备的用户:在连续交互模式下,仅支持唤醒设备的用户继续交互,其余人的语音将不会被识别  (可以理解为AI语音只回复用名字叫醒它的那个人)
4、  点击【确认】后,进入声纹注册页面,点击【开始录音】,按文本读完后点击创建即可。
5、  声纹创建成功后会进入声纹对应的【编辑画像】界面,这个页面可以手动填入声纹主人的兴趣爱好、需要AI长期记忆的内容。
画像编辑完成后返回【识别模式】界面,选择【仅识别已注册声纹的用户】即可实现视频中的效果。
小聆AI语音交互的更多资料和玩法实现参考
小聆AI详细配置参考:https://docs2.listenai.com/x/S_TEd8h7C
零代码克隆原神可莉实现桌面陪伴参考: https://docs2.listenai.com/x/x7CVdoQI3
更多个性配置方法可以参考官方开发文档:https://docs2.listenai.com/x/S_TEd8h7C
CSK6大模型开发板的硬件资料:https://docs2.listenai.com/x/nTn9kMMCU



您需要登录后才可以回帖 登录 | 注册

本版积分规则

52

主题

54

帖子

0

粉丝
快速回复 在线客服 返回列表 返回顶部