用于无模型强化学习的堆叠的卷积长短期记忆

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：渊慧科技有限公司

摘要：方法、系统和装置，包括编码在计算机存储介质上的计算机程序，用于控制与环境交互的代理。方法中的一种方法包括获取观察的表示；使用包括多个卷积长短期记忆LSTM神经网络层的卷积LSTM神经网络来处理表示；使用动作选择神经网络处理该时间步长的包括最终LSTM隐藏状态输出的动作选择输入，该动作选择神经网络被配置为接收动作选择输入并处理该动作选择输入以生成将定义在该时间步长处要由代理执行的动作的动作选择输出：根据动作选择策略，从动作选择输出中选择在该时间步长处要由代理执行的动作；以及使代理执行所选择的动作。

主权项：1.一种用于控制与环境交互的代理的系统，所述系统包括一个或多个计算机和一个或多个存储设备，所述存储设备存储指令，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实施控制神经网络系统，所述控制神经网络系统包括：卷积长短期记忆LSTM神经网络，所述LSTM神经网络包括多个卷积LSTM神经网络层，所述多个卷积LSTM神经网络层一个接一个地被布置在堆栈中，其中，所述卷积LSTM神经网络被配置为在多个时间步长中的每一个时间步长处，接收表征所述环境在所述时间步长处的状态的观察的表示，并且处理i所述表示和ii所述卷积LSTM神经网络的直到所述时间步长为止的状态，以iii生成所述时间步长的最终LSTM隐藏状态输出并且iv更新所述时间步长的所述卷积LSTM神经网络的所述状态；以及动作选择神经网络，所述动作选择神经网络被配置为在所述多个时间步长中的每一个时间步长处接收动作选择输入，所述动作选择输入包括所述时间步长的所述最终LSTM隐藏状态输出，并且处理所述动作选择输入，以根据动作选择策略生成动作选择输出，所述动作选择输出定义在所述时间步长处要由所述代理执行的动作；其中，所述卷积LSTM神经网络的直到所述时间步长为止的所述状态包括所述堆栈中的每个卷积LSTM层的相应单元状态和相应隐藏状态，并且其中，所述时间步长的所述最终LSTM隐藏状态输出是所述时间步长的所述卷积LSTM神经网络的更新后的状态下所述堆栈中的最后一个卷积LSTM层的隐藏状态；其中，所述卷积LSTM神经网络被配置为针对每个时间步长的N个瞬间进行处理，其中，N大于1，并且其中，所述处理包括，对于所述N个瞬间中的每一个瞬间：处理i所述表示和ii所述卷积LSTM神经网络的直到所述瞬间为止的状态，以更新所述瞬间的所述卷积LSTM神经网络的所述状态。

全文数据：

权利要求：

百度查询：渊慧科技有限公司用于无模型强化学习的堆叠的卷积长短期记忆

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：检测护膜的方法

下一篇：用于高移动性的CSI-RS接收

相关技术

检测护膜的方法

用于高移动性的CSI-RS接收

一种功能化壳聚糖基复合气凝胶、制备方法和用途

一种金属粉末加工用粉碎筛分装置

除盐装置的运转方法

一种空气处理设备及控制方法

工程化烯酮还原酶和酮还原酶变体酶

一种金属结构管内部应力检测装置

一种喷涂及余高打磨机器人

船舶的自动控制水雾抑爆系统及方法

对多面板有源天线系统（AAS）的波束成形配置参数的选择

一种立式减速燃气轮机

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

用于无模型强化学习的堆叠的卷积长短期记忆

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务