【发明公布】基于上下文符号策略的元强化学习自动控制方法及系统_中国科学院计算技术研究所_202211378151.1

申请/专利权人：中国科学院计算技术研究所

申请日：2022-11-04

公开（公告）日：2024-05-07

公开（公告）号：CN117991628A

主分类号：G05B13/04

分类号：G05B13/04;G06N3/045;G06N3/0499;G06N3/048;G06N3/092

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.24#实质审查的生效;2024.05.07#公开

摘要：本发明提出一种基于上下文符号策略的元强化学习自动控制方法和系统，包括：将基础控制对象的运动轨迹的上下文变量输入参数生成器，得到上下文变量中所有动作维度在符号网络中的预测参数；路径选择器通过在预测参数上乘以二进制掩码，以从符号网络中选择代表符号表达式形式的路径；符号网络根据路径和预测参数，生成训练样本的预测控制策略；使用预测控制策略控制基础控制对象，根据其运动轨迹使用强化学习训练更新参数生成器和路径选择器；将目标控制对象的上下文变量输入训练完的路径选择器和参数生成器，得到符号网络的结构和参数，从而得到目标控制对象符号化的控制策略，以控制策略控制目标控制对象完成控制目标。

主权项：1.一种基于上下文符号策略的元强化学习自动控制方法，其特征在于，包括：步骤1、获取基础控制对象的多个训练样本，每个训练样本有不同的动力学参数但相同的控制目标，或每个训练样本有相同的动力学参数但不同的控制目标，初始化由多层前馈网络构成的符号网络，该符号网络的激活函数为符号运算符；初始化参数生成器，初始化路径选择器，初始化价值网络；步骤2、采集该基础控制对象的运动轨迹存入缓冲区并对该运动轨迹进行编码，得到每个训练样本的上下文变量；步骤3、将该上下文变量输入该参数生成器，得到该上下文变量中所有动作维度在该符号网络中的预测参数；该路径选择器通过在该预测参数上乘以二进制掩码，以从该符号网络中选择代表符号表达式形式的路径；该符号网络根据该路径和该预测参数，生成该训练样本的预测控制策略；步骤4、使用预测控制策略控制该基础控制对象，并将其运动轨迹存入缓冲区，从缓冲区采集数据使用强化学习训练更新该参数生成器和路径选择器以及价值网络；步骤5、重复步骤2到4直至价值网络输出的最优累计回报收敛或达到预设迭代次数，将目标控制对象的上下文变量输入训练完的该路径选择器和该参数生成器，得到该符号网络的结构和参数，从而得到该目标控制对象符号化的控制策略，以该控制策略控制该目标控制对象完成控制目标。

全文数据：

权利要求：

百度查询：中国科学院计算技术研究所基于上下文符号策略的元强化学习自动控制方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种聚丙烯酰胺-聚乙烯醇-MXene-PEDOT:PSS复合导电有机水凝胶及其应用_浙江理工大学_202410104028.3

下一篇：一种肖特基/欧姆混合漏极结构的低阻高击穿GaN基HEMT器件及其制备方法_西安电子科技大学芜湖研究院_202410216094.X

相关技术

一种聚丙烯酰胺-聚乙烯醇-MXene-PEDOT:PSS复合导电有机水凝胶及其应用_浙江理工大学_202410104028.3

一种肖特基/欧姆混合漏极结构的低阻高击穿GaN基HEMT器件及其制备方法_西安电子科技大学芜湖研究院_202410216094.X

一种基于宫颈癌液基细胞学病理图像的大数据筛查方法_成都市第二人民医院_202410181103.6

一种双调节光圈_东莞市协辰精密五金有限公司_201810822195.6

太阳能电池及其制备方法_天合光能股份有限公司_202410179743.3

水路转换器及净水器_佛山市顺德区阿波罗环保器材有限公司_201711068259.X

烟支烟丝段紧致力测试方法_河南中烟工业有限责任公司_202410194612.2

一种变径微导管双层外层挤出模具及其制备得到的变径微导管和制备方法_河南驼人贝斯特医疗器械有限公司_202410220087.7

机动车辆的辅助机组的电动马达_博泽沃尔兹堡汽车零部件欧洲两合公司_202280067195.4

一种单体废旧电池的正负电极端壳剥离方法及装置_南京环务资源再生科技有限公司_201810729584.4

杆塔螺栓检测方法、装置、电子设备及可读存储介质_烟台国网中电电气有限公司_202410172895.0

一种带自乳化润肤功效的卸妆凝露及其制备方法_杭州千玺颜美生物科技有限公司_202410196720.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】基于上下文符号策略的元强化学习自动控制方法及系统_中国科学院计算技术研究所_202211378151.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务