首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于上下文符号策略的元强化学习自动控制方法及系统_中国科学院计算技术研究所_202211378151.1 

申请/专利权人:中国科学院计算技术研究所

申请日:2022-11-04

公开(公告)日:2024-05-07

公开(公告)号:CN117991628A

主分类号:G05B13/04

分类号:G05B13/04;G06N3/045;G06N3/0499;G06N3/048;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.24#实质审查的生效;2024.05.07#公开

摘要:本发明提出一种基于上下文符号策略的元强化学习自动控制方法和系统,包括:将基础控制对象的运动轨迹的上下文变量输入参数生成器,得到上下文变量中所有动作维度在符号网络中的预测参数;路径选择器通过在预测参数上乘以二进制掩码,以从符号网络中选择代表符号表达式形式的路径;符号网络根据路径和预测参数,生成训练样本的预测控制策略;使用预测控制策略控制基础控制对象,根据其运动轨迹使用强化学习训练更新参数生成器和路径选择器;将目标控制对象的上下文变量输入训练完的路径选择器和参数生成器,得到符号网络的结构和参数,从而得到目标控制对象符号化的控制策略,以控制策略控制目标控制对象完成控制目标。

主权项:1.一种基于上下文符号策略的元强化学习自动控制方法,其特征在于,包括:步骤1、获取基础控制对象的多个训练样本,每个训练样本有不同的动力学参数但相同的控制目标,或每个训练样本有相同的动力学参数但不同的控制目标,初始化由多层前馈网络构成的符号网络,该符号网络的激活函数为符号运算符;初始化参数生成器,初始化路径选择器,初始化价值网络;步骤2、采集该基础控制对象的运动轨迹存入缓冲区并对该运动轨迹进行编码,得到每个训练样本的上下文变量;步骤3、将该上下文变量输入该参数生成器,得到该上下文变量中所有动作维度在该符号网络中的预测参数;该路径选择器通过在该预测参数上乘以二进制掩码,以从该符号网络中选择代表符号表达式形式的路径;该符号网络根据该路径和该预测参数,生成该训练样本的预测控制策略;步骤4、使用预测控制策略控制该基础控制对象,并将其运动轨迹存入缓冲区,从缓冲区采集数据使用强化学习训练更新该参数生成器和路径选择器以及价值网络;步骤5、重复步骤2到4直至价值网络输出的最优累计回报收敛或达到预设迭代次数,将目标控制对象的上下文变量输入训练完的该路径选择器和该参数生成器,得到该符号网络的结构和参数,从而得到该目标控制对象符号化的控制策略,以该控制策略控制该目标控制对象完成控制目标。

全文数据:

权利要求:

百度查询: 中国科学院计算技术研究所 基于上下文符号策略的元强化学习自动控制方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。