[STM32F4] 【新人的疯狂想法】STM32F4也能玩深度增强学习（二...

只看该作者 · 2018-5-23 15:11

本帖最后由 PYPL80022602 于 2018-5-23 17:59 编辑

视频连接：
v.youku.com/v_show/id_XMzYyMjAyNDM4OA

我们团队的第三个作品，使用的是STM32F407，用的是正点原子的开发板，

游戏环境为自己编写的虚拟机械臂（reacher，到达者），控制一个两关节机械臂，使得机械臂尖端触碰目标

与之前相同，采用我们团队自己开发的操作系统OSlw，使用自己开发的神经网络框架。

不同于之前的flapperbrid，机械臂的转角是连续量，难以直接使用DQN算法，所以采用可以输出连续量的DDPG算法（Google Deepmind）

由于只是用了STM32F407的内部128k的ram，且DDPG算法十分耗内存（四个神经网络，两套参数），所以此次设计采用简化神经网络，增大ER的设计方法。

超参数：

演员网络：10->50(ReLU)->2(tanh)

评论家网络 12->70(ReLU)->1(linear)

学习速率统一0.001

gamma=0.9

ER:600取10

tau=0.01

【消息】近来，我们团队准备将OSlw操作系统与内部的神经网络的算法框架在github完全开源，预计OSlw操作系统将率先开源，敬请期待。

简单作品，各位大神轻喷。

如有侵权，立刻删除。

如有问题与学习讨论意向请致邮箱 shuep_418_slw@outlook.com

3万 · 2018-5-23 18:07

不错，感谢分享；

1万 · 2018-5-23 22:35

牛X啊

[STM32F4] 【新人的疯狂想法】STM32F4也能玩深度增强学习（二...

技术领袖奖章

十世金身

坚毅之洋流

荣誉元老奖章