首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

训练动作选择神经网络 

申请/专利权人:渊慧科技有限公司

申请日:2017-11-03

公开(公告)日:2024-06-25

公开(公告)号:CN118246513A

主分类号:G06N3/092

分类号:G06N3/092;G06N3/094;G06N3/084;G06N3/047

优先权:["20161103 US 62/417,235"]

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:本发明涉及训练动作选择神经网络。一种方法包括维持回放存储器,该回放存储器存储由于代理与环境的交互而生成的轨迹;并且训练具有关于回放存储器中的轨迹的策略参数的动作选择神经网络,其中,训练动作选择神经网络包括:从回放存储器中采样轨迹;并且通过使用离线策略行动器评判强化学习技术在轨迹上训练动作选择神经网络来调整策略参数的当前值。

主权项:1.一种训练具有多个主网络参数的主神经网络以通过优化目标函数来确定所述主网络参数的训练值的方法,所述方法包括:接收包括多个训练示例的一批训练数据;以及对于所述批中的所述多个训练示例中的每一个:使用所述主神经网络根据所述主网络参数的当前值来处理该训练示例以生成用于该训练示例的主网络输出;从所述主网络输出确定所述目标函数的主梯度;使用具有多个平均网络参数的平均神经网络并根据所述平均网络参数的当前值,处理所述训练示例以生成用于所述训练示例的平均网络输出,其中,所述平均网络参数的当前值表示在训练期间所述主网络参数的运行平均值;确定在所述平均网络输出和所述主网络输出之间的差异的度量的辅助梯度;从所述主梯度和所述辅助梯度确定最终梯度;以及从所述最终梯度确定对所述主网络参数的所述当前值的更新。

全文数据:

权利要求:

百度查询: 渊慧科技有限公司 训练动作选择神经网络

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。