视频连接:
v.youku.com/v_show/id_XMzYyMjAyNDM4OA
我们团队的第三个作品,使用的是STM32F407,用的是正点原子的开发板,
游戏环境为自己编写的虚拟机械臂(reacher,到达者),控制一个两关节机械臂,使得机械臂尖端触碰目标
与之前相同,采用我们团队自己开发的操作系统OSlw,使用自己开发的神经网络框架。
不同于之前的flapperbrid,机械臂的转角是连续量,难以直接使用DQN算法,所以采用可以输出连续量的DDPG算法(Google Deepmind)
由于只是用了STM32F407的内部128k的ram,且DDPG算法十分耗内存(四个神经网络,两套参数),所以此次设计采用简化神经网络,增大ER的设计方法。
超参数:
演员网络:10->50(ReLU)->2(tanh)
评论家网络 12->70(ReLU)->1(linear)
学习速率统一0.001
gamma=0.9
ER:600取10
tau=0.01
【消息】 |