首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Deep Q-Network改进的俄罗斯方块智能Agent学习方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:武汉大学

摘要:本发明公开了一种基于DeepQ‑Network改进的俄罗斯方块智能Agent学习方法,包括以下步骤:1获取当前游戏状态下方块的统计特征,根据游戏画面采集游戏画面每帧的统计特征序列;2通过深度神经网络来进行俄罗斯方块智能AgentQ值的估计,所述Q值为俄罗斯方块agent在采取某个action后的表现对应的奖励分数;3在Q值估计中,使用均方误差定义目标函数;4计算参数W关于损失函数的梯度:5计算出上面的梯度后,使用SGD算法来更新参数,从而得到最优的Q值,即获得每次交互选取使得Q值最大的动作a。本发明方法利用预定义的方块统计特征改进了DQN网络训练Agent玩俄罗斯方块的性能。

主权项:1.一种基于DeepQ-Network改进的俄罗斯方块智能Agent学习方法,其特征在于,包括以下步骤:1获取当前游戏状态下方块的统计特征,根据游戏画面采集游戏画面每帧的统计特征序列,其中,统计特征序列包括:空洞数、板块高度、消行数、列井深和、颠簸、列高和;2通过深度神经网络来进行俄罗斯方块智能AgentQ值的估计,所述Q值为俄罗斯方块agent在采取某个action后的表现对应的奖励分数,具体如下:所述深度神经网络的结构为:用于输入方块统计特征序列的Dense全连接层与DQN网络的拼接;Q值的估计表示为:Qs,a,w≈Qπs,a其中,s代表当前的环境,由游戏画面最近4帧4*10*20的灰度图输入到2个卷积层然后展平成一维向量,和游戏画面最近4帧的方块统计特征序列经过Dense全连接层编码后做concat拼接而来;最后接一个Dense层输出动作a与s交互时对应的Q值;a代表从潜在action空间中选取的当前动作,潜在action空间包括旋转、左移、右移和下降;w为神经网络的参数;3在Q值估计中,使用均方误差来定义目标函数,也就是网络的损失函数;4计算参数w关于损失函数的梯度:5根据计算出的梯度,使用SGD算法来更新参数w,从而得到最优的Q值,即获得每次交互选取使得Q值最大的动作a。

全文数据:

权利要求:

百度查询: 武汉大学 一种基于Deep Q-Network改进的俄罗斯方块智能Agent学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。