打印
[STM32F4]

[STM32F4] 【新人的疯狂想法】STM32F4也能玩深度增强学习(二...

[复制链接]
1416|2
手机看帖
扫描二维码
随时随地手机跟帖
跳转到指定楼层
楼主
PYPL80022602|  楼主 | 2018-5-23 15:11 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 PYPL80022602 于 2018-5-23 17:59 编辑

视频连接:
v.youku.com/v_show/id_XMzYyMjAyNDM4OA

我们团队的第三个作品,使用的是STM32F407,用的是正点原子的开发板,


游戏环境为自己编写的虚拟机械臂(reacher,到达者),控制一个两关节机械臂,使得机械臂尖端触碰目标

与之前相同,采用我们团队自己开发的操作系统OSlw,使用自己开发的神经网络框架。

不同于之前的flapperbrid,机械臂的转角是连续量,难以直接使用DQN算法,所以采用可以输出连续量的DDPG算法(Google Deepmind)


由于只是用了STM32F407的内部128k的ram,且DDPG算法十分耗内存(四个神经网络,两套参数),所以此次设计采用简化神经网络,增大ER的设计方法。


超参数:

演员网络:10->50(ReLU)->2(tanh)

评论家网络 12->70(ReLU)->1(linear)

学习速率统一0.001

gamma=0.9

ER:600取10

tau=0.01

【消息】近来,我们团队准备将OSlw操作系统与内部的神经网络的算法框架在github完全开源,预计OSlw操作系统将率先开源,敬请期待。


简单作品,各位大神轻喷。

如有侵权,立刻删除。

如有问题与学习讨论意向请致邮箱 shuep_418_slw@outlook.com
沙发
mmuuss586| | 2018-5-23 18:07 | 只看该作者
不错,感谢分享;

使用特权

评论回复
板凳
caijie001| | 2018-5-23 22:35 | 只看该作者
牛X啊

使用特权

评论回复
发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则

4

主题

26

帖子

1

粉丝