首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】使用异策略行动者-评价者强化学习进行分布式训练_渊慧科技有限公司_202410384665.0 

申请/专利权人:渊慧科技有限公司

申请日:2019-02-05

公开(公告)日:2024-06-18

公开(公告)号:CN118211640A

主分类号:G06N3/098

分类号:G06N3/098;G06N3/092;G06N3/045;G06N3/0442;G06N3/0464

优先权:["20180205 US 62/626,643"]

专利状态码:在审-公开

法律状态:2024.06.18#公开

摘要:方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于训练动作选择神经网络,该动作选择神经网络用于选择要由与环境交互的智能体执行的动作。在一个方面,一种系统包括多个行动者计算单元和多个学习者计算单元。行动者计算单元生成经验元组轨迹,学习者计算单元使用该经验元组轨迹来利用强化学习技术更新学习者动作选择神经网络参数。强化学习技术可以是异策略行动者‑评价者强化学习技术。

主权项:1.一种由一个或多个计算机执行的方法,所述方法包括:联合地训练动作选择神经网络和状态值神经网络,其中:动作选择神经网络被配置为根据一组动作选择神经网络参数的当前值来处理环境的观察,以生成定义能够由智能体执行以与环境交互的一组动作上的得分分布的输出;状态值神经网络被配置为处理包括环境的观察的输入,以生成该观察的状态值,该状态值定义从由观察表示的环境的状态开始,通过使用由该组动作选择神经网络参数的当前值定义的当前动作选择策略来选择动作而将由智能体接收的累积反馈值的估计;所述训练包括:获得异策略轨迹,该异策略轨迹表征当智能体执行根据与当前动作选择策略不同的异策略动作选择策略而选择的动作时,在时间步骤序列上智能体与环境的交互;在异策略轨迹上训练状态值神经网络,包括:确定状态值目标,该状态值目标定义状态值神经网络的预测目标,其中,状态值目标是以下项的组合:i异策略轨迹中的第一观察的状态值;以及ii校正项,其考虑当前动作选择策略和异策略动作选择策略之间的差异;训练状态值神经网络以减小状态值目标与由状态值神经网络通过处理异策略轨迹中的第一观察生成的状态值之间的差异;以及使用状态值神经网络在异策略轨迹上训练动作选择神经网络。

全文数据:

权利要求:

百度查询: 渊慧科技有限公司 使用异策略行动者-评价者强化学习进行分布式训练

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

-相关技术