热门搜索： json Test query CSS java java java java

您现在的位置是：虫虫源码 > 其他 > 俄罗斯方块强化学习实验报告

俄罗斯方块强化学习实验报告

资源大小：18.50M
上传时间：2021-08-13
下载次数：0次
浏览次数：1次
资源积分：1积分
标签： Python语言基础

资源简介

一、俄罗斯方块DQN算法实验报告1. 网络结构图1 DQN网络结构2. 超参数 GAMMA = 0.99 # decay rate of past observations 设置增强学习更新公式中的累计折扣因子 OBSERVE = 500. # timesteps to observe before training 设置观察期的迭代次数 EXPLORE = 500. # frames over which to anneal epsilon 设置探索期的观察次数 FINAL_EPSILON = 0.002 # final value of epsilon 设置ε的最终最小值 INITIAL_EPSILON = 10.0 # starting value of epsilon 设置ε的初始值 REPLAY_MEMORY = 5900 # number of previous transitions to remember 设置replay memory的容量 BATCH = 32 # size of mini batch 设置每次网络参数更新世用的样本数目 K = 1 # only select an action every Kth frame, repeat prev for others，设置几帧图像进行一次动作， # K越大让控制台输出的速度变慢，游戏画面速度变快，机器人动作的速度变越迟缓。ACTIONS = 6 # number of valid actions 游戏动作数3.实验结果训练前期的self.score分数很低150左右，EPSILON=1.0，Q_MAX= 2.061341e-02：图2 EPSILON=1.0设置超参数EPSILON=0.05在1000步迭代之后：EPSILON固定在0.04999999999999416 Q_MAX = -1.163765e-01Self.score有明显的提升，但是之后无论训练多久都没有明显提升了。图3 EPSILON=0.05设置超参数EPSILON= 0.002在1001步迭代之后：EPSILON固定在0.000004 Q_MAX = 1.728995e 02Self.score可以轻松达到200以上。图4 EPSILON=0.000004设置超参数EPSILON= 0.000001在1001步迭代之后：EPSILON固定在-0.001998997999987482 Q_MAX = 1.899879e 03Self.score可以轻松达到200以上。图5 EPSILON=-0.002 【核心代码】用DQN来玩俄罗斯方块 tetrix_DQN ├── Wrapped Game Code│ └── tetris_fun.py├── deep_q_network.py├── logs_tetris│ ├── hidden.txt│ └── readout.txt└── saved_networks ├── tetris-dqn-10000.data-00000-of-00001 ├── tetris-dqn-10000.index ├── tetris-dqn-10000.meta └── tetris-dqn-316600003 directories, 8 files

您可能感兴趣的

同类别推荐

杨波 1天前成为了本站会员
ZS 1天前成为了本站会员
. 2天前成为了本站会员
奋斗 2天前成为了本站会员
✨ 2天前成为了本站会员
一天不玩浑身难受 3天前成为了本站会员
Aloha 3天前成为了本站会员
嘻嘻嘻 3天前成为了本站会员
maihaoweilai 3天前成为了本站会员
紫麟鹿 3天前成为了本站会员

毛海彬 1周前下载了：

一个很好的汇编集成开发环境，支持多种汇编编译器。
毛海彬 1周前下载了：

汇编语言编写的发声程序! 无密码. 希望能给初学汇编的人一点启发吧!...
毛海彬 1周前下载了：

这是一个汇编的程序包，所包含了一般的汇编初学者所要参考的汇编小程序...
dybabc123 1周前下载了：

这是一个旅行商问题的算法源程序
dybabc123 1周前下载了：

unix下的ping代码源程序
dybabc123 1周前下载了：

Three-dimensional finite-difference ground-water flow model 三维流体有限元源代码
dybabc123 1周前下载了：

这是一个运用多种排序法对数据进行排序的程序,排序时间复杂性小,空间复杂性小,排序速度快.压缩包包括源程序文件,再vc中运行.
dybabc123 1周前下载了：

介绍windows环境下命令行
dybabc123 1周前下载了：

Thinking in java 3 习题答案
dybabc123 1周前下载了：

这是一个通过字符串操作来实现文本加密解密的源程序,通过打乱原文本字符串的顺序,隐藏信息,通过解密,可以回复原字符正常顺序,达到加密解密的目的.压缩包包括源程序文件,再vc中运行.

您现在的位置是：虫虫源码 > 其他 > 俄罗斯方块强化学习实验报告

俄罗斯方块强化学习实验报告

资 源 简 介

相 关 资 源

您 可 能 感 兴 趣 的

同 类 别 推 荐

资源简介

相关资源

您可能感兴趣的

同类别推荐