【发明公布】使用异策略行动者-评价者强化学习进行分布式训练_渊慧科技有限公司_202410384665.0

导航：龙图腾网> 最新专利技术> 使用异策略行动者-评价者强化学习进行分布式训练_渊慧科技有限公司_202410384665.0

申请/专利权人：渊慧科技有限公司

申请日：2019-02-05

公开（公告）日：2024-06-18

公开（公告）号：CN118211640A

主分类号：G06N3/098

分类号：G06N3/098;G06N3/092;G06N3/045;G06N3/0442;G06N3/0464

优先权：["20180205 US 62/626,643"]

专利状态码：在审-公开

法律状态：2024.06.18#公开

摘要：方法、系统和装置，包括编码在计算机存储介质上的计算机程序，用于训练动作选择神经网络，该动作选择神经网络用于选择要由与环境交互的智能体执行的动作。在一个方面，一种系统包括多个行动者计算单元和多个学习者计算单元。行动者计算单元生成经验元组轨迹，学习者计算单元使用该经验元组轨迹来利用强化学习技术更新学习者动作选择神经网络参数。强化学习技术可以是异策略行动者‑评价者强化学习技术。

主权项：1.一种由一个或多个计算机执行的方法，所述方法包括：联合地训练动作选择神经网络和状态值神经网络，其中：动作选择神经网络被配置为根据一组动作选择神经网络参数的当前值来处理环境的观察，以生成定义能够由智能体执行以与环境交互的一组动作上的得分分布的输出；状态值神经网络被配置为处理包括环境的观察的输入，以生成该观察的状态值，该状态值定义从由观察表示的环境的状态开始，通过使用由该组动作选择神经网络参数的当前值定义的当前动作选择策略来选择动作而将由智能体接收的累积反馈值的估计；所述训练包括：获得异策略轨迹，该异策略轨迹表征当智能体执行根据与当前动作选择策略不同的异策略动作选择策略而选择的动作时，在时间步骤序列上智能体与环境的交互；在异策略轨迹上训练状态值神经网络，包括：确定状态值目标，该状态值目标定义状态值神经网络的预测目标，其中，状态值目标是以下项的组合：i异策略轨迹中的第一观察的状态值；以及ii校正项，其考虑当前动作选择策略和异策略动作选择策略之间的差异；训练状态值神经网络以减小状态值目标与由状态值神经网络通过处理异策略轨迹中的第一观察生成的状态值之间的差异；以及使用状态值神经网络在异策略轨迹上训练动作选择神经网络。

全文数据：

权利要求：

百度查询：渊慧科技有限公司使用异策略行动者-评价者强化学习进行分布式训练

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种配电网低压无功补偿电容状态检测方法及装置_广东电网有限责任公司_202210780379.7

下一篇：基于IPSO-CHRFA模型的海洋哺乳动物叫声分类方法_青岛科技大学_202410508360.6

相关技术

一种配电网低压无功补偿电容状态检测方法及装置_广东电网有限责任公司_202210780379.7

基于IPSO-CHRFA模型的海洋哺乳动物叫声分类方法_青岛科技大学_202410508360.6

一种用于化纤在线取丝饼自动暂存的中转机器人_安歌科技(集团)股份有限公司_202210543752.7

一种低漏电流层积电容器的化成铝箔的处理工艺和层积电容器_肇庆绿宝石电子科技股份有限公司_202210484604.2

一种搅拌式反应釜_江苏中特特种金属装备有限公司_202410183133.0

一种防治猪繁殖与呼吸道综合征的复方中药可溶性粉的制备方法和应用_广东海大集团股份有限公司_202211577992.5

一种发动机仿真模型的精度评估方法、装置以及电子设备_西安航天动力研究所_202410282665.X

一种汽车风窗玻璃试验中AB区的投射设备_中汽研汽车检验中心(武汉)有限公司_202410456408.3

一种智能机械抓手_陇芯微(西安)电子科技有限公司_202111591327.7

印制绕组式轻量化电磁能量采集装置_中国农业大学_202211249050.4

一种镁合金阳极表面原位生成ZIF-8涂层的改性方法_桂林理工大学_202210904451.2

耐拉伸航空用电缆_广东南缆电缆有限公司_202410436836.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】使用异策略行动者-评价者强化学习进行分布式训练_渊慧科技有限公司_202410384665.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务