STM32Cube.AI 在 MLPerf Tiny v1.2 基准测试中的 latency、Flash/RAM 占用优化细节？

发表于 2025-11-5 21:33

STM32Cube.AI 在MLPerf Tiny v1.2 基准测试中的 latency、Flash/RAM 占用优化如何做？

发表于 2025-11-18 16:27

STM32Cube.AI 是 ST 推出的 AI 模型部署工具链，可将训练好的机器学习模型转换为适配 STM32 微控制器的优化代码。在 MLPerf Tiny v1.2 基准测试中（针对边缘端低功耗设备的轻量级 ML 任务，如视觉唤醒词、异常检测等），STM32Cube.AI 针对 latency（延迟）、Flash/RAM 占用的优化主要通过工具链自身特性、模型压缩技术及硬件适配策略实现

发表于 2025-11-18 17:18

STM32Cube.AI 的模型转换器会自动分析模型结构，合并冗余算子（如 Conv2D+BN+ReLU 融合为单算子），删除无效层（如恒等映射层），减少计算步骤。

发表于 2025-11-18 19:56

优先使用 STM32 硬件支持的轻量化算子，降低单步计算复杂度。

发表于 2025-11-18 20:29

INT8/INT16 量化，默认将浮点模型量化为 8 位整数（INT8），相比浮点（FP32）计算，可减少 75% 的数据传输量和计算耗时，同时保持任务精度（MLPerf Tiny 任务对精度损失容忍度较高，通常 INT8 足够）。STM32Cube.AI 支持 “训练后量化” 和 “量化感知训练”，平衡精度与速度。

发表于 2025-11-18 21:21

动态定点量化，针对部分对精度敏感的层（如输出层），可保留 INT16 量化，兼顾延迟与精度。

发表于 2025-11-18 22:53

针对 Cortex-M4/M7/M33 等内核的 DSP 指令集（如 SIMD 指令）和 FPU，STM32Cube.AI 会生成优化的汇编代码，并行处理数据（如一次操作 4 个 INT8 数据），提升计算吞吐量。

发表于 2025-11-19 07:30

对于带硬件加速器的 STM32 型号（如 STM32H7 系列的 CORDIC、STM32L4+ 的 CRC 加速器），工具链会调度外设分担部分计算（如快速傅里叶变换），减少 CPU 负载。

发表于 2025-11-19 09:51

将模型权重、激活值缓冲区在编译时静态分配，避免运行时动态内存申请的开销。

发表于 2025-11-19 10:24

将模型权重、激活值缓冲区在编译时静态分配，避免运行时动态内存申请的开销。

发表于 2025-11-19 11:41

对于多输入任务（如传感器数据序列），将数据预处理（如归一化）与模型推理流水线并行，隐藏部分延迟。

发表于 2025-11-18 14:32

STM32Cube.AI 支持对模型权重进行剪枝（移除接近零的权重），生成稀疏矩阵，配合专用稀疏算子减少 Flash 存储量（例如，剪枝 50% 权重可减少约 40% Flash 占用，且对精度影响较小）。

[其他ST产品] STM32Cube.AI 在 MLPerf Tiny v1.2 基准测试中的 latency、Flash/RAM 占用优化细节？

相关帖子

浏览过的版块