本帖最后由 PYPL80022602 于 2018-5-9 21:02 编辑
视频连接:
v.youku.com/v_show/id_XMzU5NTM2MzUyOA
我们团队的第二个作品,使用的是STM32F407,用的是正点原子的开发板,游戏是简易版本的flappy brid,利用的算法是Google-deepmind提出的DQN算法,内置我们自己开发的操作系统OSlw,自己实现的神经网络架构(纯C语言)。
没有直接使用deepmind论文中的超参数(要使用CNN,而且ER太大)
使用10->32->32->32->2的网络结构
除了输出,全部采用swish激活函数,输出采用线性激活,学习速率全部0.001
gamma=0.5
ep=0.8,随游戏轮数增大
ER=400,随机抽取5个
复制轮数=25
最好记录为单次44万+(运行8h+)
简单作品,各位大神轻喷。
如有侵权,立刻删除。
|