首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

用于无模型强化学习的堆叠的卷积长短期记忆 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:渊慧科技有限公司

摘要:方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于控制与环境交互的代理。方法中的一种方法包括获取观察的表示;使用包括多个卷积长短期记忆LSTM神经网络层的卷积LSTM神经网络来处理表示;使用动作选择神经网络处理该时间步长的包括最终LSTM隐藏状态输出的动作选择输入,该动作选择神经网络被配置为接收动作选择输入并处理该动作选择输入以生成将定义在该时间步长处要由代理执行的动作的动作选择输出:根据动作选择策略,从动作选择输出中选择在该时间步长处要由代理执行的动作;以及使代理执行所选择的动作。

主权项:1.一种用于控制与环境交互的代理的系统,所述系统包括一个或多个计算机和一个或多个存储设备,所述存储设备存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实施控制神经网络系统,所述控制神经网络系统包括:卷积长短期记忆LSTM神经网络,所述LSTM神经网络包括多个卷积LSTM神经网络层,所述多个卷积LSTM神经网络层一个接一个地被布置在堆栈中,其中,所述卷积LSTM神经网络被配置为在多个时间步长中的每一个时间步长处,接收表征所述环境在所述时间步长处的状态的观察的表示,并且处理i所述表示和ii所述卷积LSTM神经网络的直到所述时间步长为止的状态,以iii生成所述时间步长的最终LSTM隐藏状态输出并且iv更新所述时间步长的所述卷积LSTM神经网络的所述状态;以及动作选择神经网络,所述动作选择神经网络被配置为在所述多个时间步长中的每一个时间步长处接收动作选择输入,所述动作选择输入包括所述时间步长的所述最终LSTM隐藏状态输出,并且处理所述动作选择输入,以根据动作选择策略生成动作选择输出,所述动作选择输出定义在所述时间步长处要由所述代理执行的动作;其中,所述卷积LSTM神经网络的直到所述时间步长为止的所述状态包括所述堆栈中的每个卷积LSTM层的相应单元状态和相应隐藏状态,并且其中,所述时间步长的所述最终LSTM隐藏状态输出是所述时间步长的所述卷积LSTM神经网络的更新后的状态下所述堆栈中的最后一个卷积LSTM层的隐藏状态;其中,所述卷积LSTM神经网络被配置为针对每个时间步长的N个瞬间进行处理,其中,N大于1,并且其中,所述处理包括,对于所述N个瞬间中的每一个瞬间:处理i所述表示和ii所述卷积LSTM神经网络的直到所述瞬间为止的状态,以更新所述瞬间的所述卷积LSTM神经网络的所述状态。

全文数据:

权利要求:

百度查询: 渊慧科技有限公司 用于无模型强化学习的堆叠的卷积长短期记忆

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。