一种基于Deep Q-Network改进的俄罗斯方块智能Agent学习方法

导航：龙图腾网> 最新专利技术> 一种基于Deep Q-Network改进的俄罗斯方块智能Agent学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：武汉大学

摘要：本发明公开了一种基于DeepQ‑Network改进的俄罗斯方块智能Agent学习方法，包括以下步骤：1获取当前游戏状态下方块的统计特征，根据游戏画面采集游戏画面每帧的统计特征序列；2通过深度神经网络来进行俄罗斯方块智能AgentQ值的估计，所述Q值为俄罗斯方块agent在采取某个action后的表现对应的奖励分数；3在Q值估计中，使用均方误差定义目标函数；4计算参数W关于损失函数的梯度：5计算出上面的梯度后，使用SGD算法来更新参数，从而得到最优的Q值，即获得每次交互选取使得Q值最大的动作a。本发明方法利用预定义的方块统计特征改进了DQN网络训练Agent玩俄罗斯方块的性能。

主权项：1.一种基于DeepQ-Network改进的俄罗斯方块智能Agent学习方法，其特征在于，包括以下步骤：1获取当前游戏状态下方块的统计特征，根据游戏画面采集游戏画面每帧的统计特征序列，其中，统计特征序列包括：空洞数、板块高度、消行数、列井深和、颠簸、列高和；2通过深度神经网络来进行俄罗斯方块智能AgentQ值的估计，所述Q值为俄罗斯方块agent在采取某个action后的表现对应的奖励分数，具体如下：所述深度神经网络的结构为：用于输入方块统计特征序列的Dense全连接层与DQN网络的拼接；Q值的估计表示为：Qs,a,w≈Qπs,a其中，s代表当前的环境，由游戏画面最近4帧4*10*20的灰度图输入到2个卷积层然后展平成一维向量，和游戏画面最近4帧的方块统计特征序列经过Dense全连接层编码后做concat拼接而来；最后接一个Dense层输出动作a与s交互时对应的Q值；a代表从潜在action空间中选取的当前动作，潜在action空间包括旋转、左移、右移和下降；w为神经网络的参数；3在Q值估计中，使用均方误差来定义目标函数，也就是网络的损失函数；4计算参数w关于损失函数的梯度：5根据计算出的梯度，使用SGD算法来更新参数w，从而得到最优的Q值，即获得每次交互选取使得Q值最大的动作a。

全文数据：

权利要求：

百度查询：武汉大学一种基于Deep Q-Network改进的俄罗斯方块智能Agent学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种黄芩病虫害识别系统及方法

下一篇：天然气发动机配气相位控制方法和天然气发动机

相关技术

一种黄芩病虫害识别系统及方法

天然气发动机配气相位控制方法和天然气发动机

一种页面构建方法和系统

一种大数据检索方法、装置以及可读存储介质

一种盾构壁后注浆浆液及其制备方法

包含月桂酸甘油三酯的非乳制奶精组合物及其制备方法

一种变电站无人机巡视路径规划方法及系统

一种可移动式预装变电站

一种家具耐用性综合测试平台及其测试方法

一种紫外活化过一硫酸盐联用过程去除水中硫酸羟基氯喹的方法

制氢装置以及氢发电系统

一种新能源汽车语音功能测试方法、系统及设备

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于Deep Q-Network改进的俄罗斯方块智能Agent学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务