【发明公布】一种基于自监督强化学习的即时奖励学习方法_之江实验室_202410339613.1

导航：龙图腾网> 最新专利技术> 一种基于自监督强化学习的即时奖励学习方法_之江实验室_202410339613.1

申请/专利权人：之江实验室

申请日：2024-03-25

公开（公告）日：2024-04-26

公开（公告）号：CN117933346A

主分类号：G06N3/0895

分类号：G06N3/0895;G06N3/092;G06N3/0455;G06N3/0464

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.14#实质审查的生效;2024.04.26#公开

摘要：本发明公开了一种基于自监督强化学习的即时奖励学习方法，获取高维图像数据集，高维图像数据集中包括若干带有终止状态成功或者失败标识的图像；利用高维图像数据集训练自监督学习模型，得到对应的低维特征；利用高维图像数据带有的终止状态的标识，基于低维特征，得到成功特征和失败特征；利用监督学习方法训练状态转移模型，并利用状态转移模型预测的下一状态信息和两类特征进行比较分类，得到即时奖励；基于即时奖励，利用强化学习方法进行决策。本发明可以减少强化学习方法中奖励的人工设计及标注，使得即时奖励的获取智能化。同时，这种即时奖励学习方法可以扩充强化学习的应用范围，扩展了强化学习框架的实际应用，具有广阔的场景。

主权项：1.一种基于自监督强化学习的即时奖励学习方法，其特征在于，包括：获取高维图像数据集，所述高维图像数据集中包括若干带有终止状态成功或者失败标识的图像；利用所述高维图像数据集训练自监督学习模型，得到对应的低维特征；利用所述高维图像数据带有的终止状态的标识，基于所述低维特征，得到成功特征和失败特征；利用监督学习方法训练状态转移模型，并利用状态转移模型预测的下一状态信息和两类特征进行比较分类，得到即时奖励；基于所述即时奖励，利用强化学习方法进行决策。

全文数据：

权利要求：

百度查询：之江实验室一种基于自监督强化学习的即时奖励学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

下一篇：双极化天线阵列测向角度的获取方法、系统、设备及介质_网络通信与安全紫金山实验室_202111062353.0

相关技术

一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

双极化天线阵列测向角度的获取方法、系统、设备及介质_网络通信与安全紫金山实验室_202111062353.0

聚离子弹性体及其制备方法与应用_赛感科技(深圳)有限公司_202211412739.4

一种带角度弹性垫圈的热处理方法及热处理装置_贵州航天精工制造有限公司_202111464284.6

一种降低冷轧轧制力的方法_首钢智新迁安电磁材料有限公司_202111360250.2

帏中香风味纸张的制备方法_扬州市祥华新材料科技有限公司_202211345365.9

一种处理DMS红外光反射导致亮斑的系统_钧捷智能(深圳)有限公司_202310101483.3

燃料电池以及燃料电池的制造方法_丰田自动车株式会社_202110209899.8

一种电石渣煅烧氧化钙粉体循环压球系统及工艺_江苏中圣园科技股份有限公司_202011333705.7

刷新注册的容错处理方法、装置、CSCF以及介质_中国电信股份有限公司_202010967419.X

一种即时检验抗凝药物监测系统_北京倍肯恒业科技发展股份有限公司_202310581047.0

一种结构紧凑的测斜仪骨架_青岛智腾科技有限公司_201910663221.X

龙图腾网&IPTOP

【发明公布】一种基于自监督强化学习的即时奖励学习方法_之江实验室_202410339613.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务