训练动作选择神经网络

导航：龙图腾网> 最新专利技术> 训练动作选择神经网络

申请/专利权人：渊慧科技有限公司

申请日：2017-11-03

公开（公告）日：2024-06-25

公开（公告）号：CN118246513A

主分类号：G06N3/092

分类号：G06N3/092;G06N3/094;G06N3/084;G06N3/047

优先权：["20161103 US 62/417,235"]

专利状态码：在审-公开

法律状态：2024.06.25#公开

摘要：本发明涉及训练动作选择神经网络。一种方法包括维持回放存储器，该回放存储器存储由于代理与环境的交互而生成的轨迹；并且训练具有关于回放存储器中的轨迹的策略参数的动作选择神经网络，其中，训练动作选择神经网络包括：从回放存储器中采样轨迹；并且通过使用离线策略行动器评判强化学习技术在轨迹上训练动作选择神经网络来调整策略参数的当前值。

主权项：1.一种训练具有多个主网络参数的主神经网络以通过优化目标函数来确定所述主网络参数的训练值的方法，所述方法包括：接收包括多个训练示例的一批训练数据；以及对于所述批中的所述多个训练示例中的每一个：使用所述主神经网络根据所述主网络参数的当前值来处理该训练示例以生成用于该训练示例的主网络输出；从所述主网络输出确定所述目标函数的主梯度；使用具有多个平均网络参数的平均神经网络并根据所述平均网络参数的当前值，处理所述训练示例以生成用于所述训练示例的平均网络输出，其中，所述平均网络参数的当前值表示在训练期间所述主网络参数的运行平均值；确定在所述平均网络输出和所述主网络输出之间的差异的度量的辅助梯度；从所述主梯度和所述辅助梯度确定最终梯度；以及从所述最终梯度确定对所述主网络参数的所述当前值的更新。

全文数据：

权利要求：

百度查询：渊慧科技有限公司训练动作选择神经网络

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：生产混凝土用碎石仓

下一篇：一种新型全遮光窗帘面料

相关技术

生产混凝土用碎石仓

一种新型全遮光窗帘面料

一种零部件加工的表面喷漆装置

一种防滑型无纺布的裁剪装置

一种高选择性紧凑型超宽带滤波器的拓扑结构及滤波器

一种配电网规划用的智慧配电网架

一种房建施工用安全防坠装置

一种机罩

一种液体沥青取样装置

一种带固定结构的冲压装置

电芯和电子设备

一种用于3C零件组装的点胶设备

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

训练动作选择神经网络

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务