打印
[应用相关]

​STM32N6引入NPU,为边缘AI插上“隐形的翅膀”

[复制链接]
1193|6
手机看帖
扫描二维码
随时随地手机跟帖
跳转到指定楼层
楼主
STM新闻官|  楼主 | 2025-4-20 00:32 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 STM新闻官 于 2025-4-20 00:46 编辑



2025年的春天格外特别。伴随着人形机器人、DeepSeek的强势刷屏,AI成了最有前景的赛道。万物皆可AI,万物也在寻觅用上AI或者让AI“转正”的“aha moment”。帮助机器更好地“思考”,让更多的AI走向边缘,是AI发展的重要趋势之一。在MCU中加入NPU单元是落实这一趋势的芯片技术路线之一,STM32N6便是MCU+NPU架构的开山之作,它拥有MPU级的AI性能,同时具备MCU级的功耗和成本。这一独特的价值定位,让边缘AI部署更轻松。




我们发现,在人工智能芯片技术持续创新的过程中,许多神经网络算法对传统MCU的要求过高,为了运行这些算法,实现边缘AI功能,开发者不得不采用集成神经处理单元(NPU)的MPU。当集成ST自研NPU的STM32N6问世之后,它可以替代那些性能强大的MPU,在保持贴近原始输入数据源、降低延迟、增强数据安全性和隐私性等优势的同时,还能降低系统成本(BOM成本更低)、加强系统的实时操作性、满足更低的功耗要求。STM32N6特性概览






STM32N6是意法半导体最新且性能最强劲的STM32 MCU,它强在:
  • 专用嵌入式神经处理单元(NPU)STM32N6集成ST自研硬件NPU,处理能力达600GOPS;同时具有3TOPS/W的极低功耗,在运行AI模型时,不需要任何散热装置。
  • Arm Cortex-M55内核 STM32N6内核为Cortex-M55,主频达800MHz,新增150个DSP矢量扩展指令集(MVE),可实现在数据被送到NPU之前的预处理,或从NPU得到结果的后处理。
  • 大容量嵌入式RAMSTM32N6内置4.2 Mbytes嵌入式RAM,支持实时数据处理和多任务处理,如存储NPU运算中的推理数据,或作为帧缓存,或H264压缩时的中间数据。
  • 强大的计算机视觉能力 STM32N6集成并行和MIPI CSI-2摄像头接口及专用图像处理单元(ISP),提供600GOPS的AI处理算力,可胜任很多机器视觉应用。
  • 扩展的多媒体功能 STM32N6集成2.5D图形加速器、H264编码器,以及JPEG编解码的硬件加速,能轻松实现在运行AI处理时,把从摄像头获取的视频通过以太网口或USB(UVC协议)传输到外部。
  • 增强的安全功能STM32N6包括为Cortex-M55核和NPU配备的Arm TrustZone,目标认证SESIP3、PSA L3。

NPU引入MCU,将触发边缘AI应用新场景的“aha moment”STM32N6之所以能够实现MPU级别的AI性能,是因为它搭载了神经网络硬件加速单元—Neural-ART加速器,这是ST自研的神经处理单元(NPU),运算吞吐量高达600 GOPS(每秒6000亿次操作),比不具备NPU的STM32H7高出600倍。NPU是专为加速神经网络计算和人工智能相关任务而设计的,针对矩阵乘法、卷积和其他线性代数运算进行了优化。因此,NPU在运行和处理AI算法非常高效,非常擅长处理图像分类、语音处理以及自然语言等多模态模型。NPU在处理AI相关任务时,功耗非常低,尤其适合电池供电的设备。不仅如此,它还可以减少微控制器上处理AI任务的延迟,这对于实时应用来说非常重要。



通过将NPU引入MCU,它将为您的人工智能应用开辟出一系列全新的可能性,为更高级和更复杂的AI用例甚至多模态场景打开大门,而不仅仅是单模态场景。
NPU带来的性能提升也是非常显著的。如上图,选取一些如图像分类、对象检测、语音识别等非常经典的神经网络模型,让这些模型分别运行在STM32N6的NPU上,也运行在STM32N6的Cortex-M55内核上,通过比较,可以发现运行这些神经网络模型时,推理性能提升了26倍到134倍。

STM32N6完备开发工具链邂逅成熟产品生态


AI应用的开发,除了硬件性能,软件支持也非常重要。STM32N6拥有完备的开发工具链和成熟的软件生态系统,原生支持多种主流人工智能框架,如TensorFlow和Keras。对于其他人工智能框架,如PyTorch,STM32N6通过ONNX格式来支持。ONNX是一种中间转换格式,可用于将任何神经网络模型格式转换为开放和标准化的格式。这体现了STM32N6 NPU工具链的灵活性,未来将支持更多的人工智能框架和应用层。
ST还提供一个完整的软件生态系统,极大地促进并优化基于STM32N6的新型人工智能应用的开发过程。这一生态系统的核心是ST Edge AI Suite,它由三部分组成:首先是Edge AI Model Zoo,这是一个免费软件工具的资源库,汇聚了免费的软件工具、实用的边缘AI模型和代码示例,以及详尽的文档资料。无论开发者经验丰富与否,都能在其中找到创建边缘人工智能应用所需的支持。其次是Edge AI Developer Cloud在线平台,开发者可以通过托管在这个云平台上的板卡对自己的AI模型进行远程性能基准测试。最后是STM32Cube.AI和ST Edge AI Core,这两款工具是模型优化器,可以将您的神经网络转换为可以在设备上执行的C代码。
结语
在AI蓬勃发展的当下,STM32N6以MCU+NPU架构破局,性能飞升,为边缘AI解锁更多场景,成为边缘AI落地的插上“隐形的翅膀”。





使用特权

评论回复
评论
xiaoaibjd 2025-5-27 14:08 回复TA
https://www.nuvoton.com.cn/ai/ 
沙发
STM新闻官|  楼主 | 2025-4-20 00:37 | 只看该作者

使用特权

评论回复
板凳
xiaoqizi| | 2025-5-6 18:32 | 只看该作者
STM32N6是意法半导体推出的首款集成神经处理单元的微控制器

使用特权

评论回复
地板
木木guainv| | 2025-5-6 20:50 | 只看该作者
STM32N6标志着MCU与AI硬件加速技术的深度融合

使用特权

评论回复
5
Jiangxiaopi| | 2025-5-6 23:01 | 只看该作者
STM32N6的自研Neural-ART NPU主频达1GHz,提供600 GOPS的AI算力,性能是传统高端STM32的600倍,同时功耗极低,无需额外散热装置,适合电池供电设备

使用特权

评论回复
6
荣陶陶| | 2025-5-7 09:55 | 只看该作者
NPU针对矩阵乘法、卷积等AI计算任务进行了专用优化,支持高效的神经网络推理,可处理图像分类、语音识别、自然语言处理等多模态模型,显著降低MCU的AI任务延迟

使用特权

评论回复
7
Zuocidian| | 2025-5-7 14:43 | 只看该作者
NPU与Arm Cortex-M55内核协同,前者负责AI加速,后者通过新增的DSP矢量扩展指令集实现数据预处理或后处理,形成“MCU+NPU”的异构计算架构

使用特权

评论回复
8
Puchou| | 2025-5-7 17:19 | 只看该作者
NPU的引入使STM32N6能够直接运行复杂的AI模型,相比传统MCU性能提升26倍到134倍,接近MPU级算力,但成本和功耗更低

使用特权

评论回复
9
Xiashiqi| | 2025-5-7 19:37 | 只看该作者
NPU的专用硬件加速能力减少了AI任务的处理延迟,满足实时性要求高的场景

使用特权

评论回复
10
小海师| | 2025-5-7 21:57 | 只看该作者
结合4.2MB大容量嵌入式RAM、MIPI CSI-2摄像头接口、ISP图像处理单元以及H.264编码器,STM32N6可同时处理AI推理、视频流传输和图形渲染

使用特权

评论回复
11
Haizangwang| | 2025-5-8 08:19 | 只看该作者
STM32N6系列分为带NPU的AI版本和不带NPU的通用版本,满足不同需求

使用特权

评论回复
发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则

认证:意法半导体(中国)投资有限公司
简介:您的嵌入式应用将得益于意法半导体领先的产品架构、技术、多源产地和全方位支持。意法半导体微控制器和微处理器拥有广泛的产品线,包含低成本的8位单片机和基于ARM® Cortex®-M0、M0+、M3、M4、M33、M7及A7内核并具备丰富外设选择的32位微控制器及微处理器。

1301

主题

1540

帖子

20

粉丝