本帖最后由 ListenAI 于 2024-6-12 20:11 编辑
视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A芯片设计的具备丰富语音图像功能与硬件外设的开发板,采用具备丰富组件生态的 Zephyr RTOS作为操作系统,官方提供了十几种开源SDK,包含大模型语音交互、大模型拍照识图、文生图、人脸识别、头肩追踪、手势识别、坐姿提醒等。 聆思提供还提供了模型训练推理工具将自己的算法模型部署至芯片上,也可以配合这个工具构建自己的 AI 应用。 功能特性 功能概述 ● 使用聆思 CSK6011A 芯片作为主控,板载 16MB Flash ● 集成摄像头、麦克风、扬声器、屏幕等丰富外设配件 ● 配套多模态应用示例,支持快速上手体验大模型语音交互、智能视觉等 AI 应用 ● 板载 DAPLINK 调试器,外接一条USB 线即可实现烧录、调试、串口日志查看 ● 板载网络模组,支持开发联网类应用 大模型示例SDK清单 SDK集成了星火大模型,可以二次开发改接其他大模型,示例清单见下表,可以直接通过链接进行固件烧录并下载: 大模型多模态(https://docs2.listenai.com/x/2V18-j2v2):套件出厂默认应用。包含大模型语音问答、拍照识图、大模型绘图等丰富供能示例,支持语音唤醒、多轮语音交互。 智能对话(https://docs2.listenai.com/x/W-UwdIBzk):除了大模型语音对话,还集成了可离线运行的坐姿检测算法,是一个 大模型在线服务+离线AI能力 的示例。 智能对话 + 文生图 + 设备控制(https://docs2.listenai.com/x/1PjldCQrN):该示例展示了如何通过大模型实现语音输入意图的理解,实现对话、绘图和控制开发板屏幕颜色进行切换,用户可参考代码与教程自行修改。 接入自定义应用(https://docs2.listenai.com/x/BDir5bLbD、https://docs2.listenai.com/x/swDsUBmPO):讲解如何在云端快速建立一个自定义大模型应用并接入到开发套件上实现语音交互,由浅入深地展示如何开发自己的大模型助手。 离线AI能力示例SDK清单 语音唤醒 + 坐姿检测:https://docs2.listenai.com/x/i_84jJ5pd 语音合成:https://docs2.listenai.com/x/ff3F2nK3w 坐姿检测:https://docs2.listenai.com/x/e16RmshY3 人脸识别:https://docs2.listenai.com/x/XuPPPS80c 单词评测:https://docs2.listenai.com/x/hZ6NT04Kk 头肩检测 & 手势识别:https://docs2.listenai.com/x/eiRAtqX7_ LNN AI示例SDK清单 LNN是用于移植适配算法至CSK6芯片的工具,提供了视觉、语音相关的示例SDK,如果想在CSK6上移植适配自己的算法,可以参照这些示例: 拍照物体识别:https://docs2.listenai.com/x/AyRl56jpS 鼾声检测:https://docs2.listenai.com/x/tD4HR_HpM 英译中:https://docs2.listenai.com/x/GxlJsvPfc 开发板设计资料下载 大模型开发套件V2.0硬件设计:https://oshwhub.com/lshuangyu/leaf-technology-multimodal-devel CSK6系芯片引脚功能表 V1.0:https://docs2.listenai.com/zz/3294.xlsx?shortId=nTn9kMMCU 附件大纲: 功能概述 ├──大模型示例SDK清单 ├──离线AI能力示例SDK清单 ├──LNN AI示例SDK清单 开发板硬件资源 开发板设计资料下载 开发板尺寸V2.0 开发板配件 ├──摄像头模组 ├──摄像头安装 ├──触摸屏模块 ├──触摸屏安装 ├──网络模组 更多使用说明 ├──供电 ├──DAPLink UsB口的使用 开发环境
|