适用于离线强化学习的无监督数据生成框架

导航：龙图腾网> 最新专利技术> 适用于离线强化学习的无监督数据生成框架

申请/专利权人：清华大学

申请日：2024-04-02

公开（公告）日：2024-06-28

公开（公告）号：CN118261228A

主分类号：G06N3/084

分类号：G06N3/084;G06N3/088;G06N3/092

优先权：

专利状态码：在审-公开

法律状态：2024.06.28#公开

摘要：本申请涉及深度强化学习技术领域，特别涉及一种适用于离线强化学习的无监督数据生成框架，其中，框架包括：获取提供给智能体的多个策略网络；基于多个策略网络进行无监督强化学习训练得到训练完成的多个策略网络，并利用训练完成的多个策略网络与环境交互获得多个数据集；根据离线强化学习的任务目标对多个数据集进行标注，并从标注后的多个数据集中选取满足目标条件的目标数据集，基于目标数据集进行离线强化学习，得到离线学习所学到的策略网络。由此，解决了相关技术中离线数据集的分布较窄，导致离线强化学习阶段的泛化性能差，当任务目标不可知时，无法学习得到最优策略等问题。

主权项：1.一种适用于离线强化学习的无监督数据生成框架，其特征在于，包括以下步骤：获取提供给智能体的多个策略网络；基于所述多个策略网络进行无监督强化学习训练得到训练完成的多个策略网络，并利用所述训练完成的多个策略网络与环境交互获得多个数据集；根据离线强化学习的任务目标对所述多个数据集进行标注，并从标注后的多个数据集中选取满足目标条件的目标数据集，基于所述目标数据集进行离线强化学习，得到离线学习所学到的策略网络。

全文数据：

权利要求：

百度查询：清华大学适用于离线强化学习的无监督数据生成框架

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种机罩

下一篇：一种房建施工用安全防坠装置

相关技术

一种机罩

一种房建施工用安全防坠装置

一种酶转化罐内部恒温搅拌机构

一种砻谷机风选取粮器

一种水利施工用混凝土搅拌装置

一种连续制备五氯化磷的装置

一种双向限位器

生产混凝土用碎石仓

一种纸尿裤生产用包边机

一种螺旋输送装置

电芯和电子设备

一种优化音频输出噪声的设备

监督相关技术

基于全监督对比学习的多模态肿瘤图像的分割方法和装置_清华大学深圳国际研究生院_202410248040.1

一种无监督的高精矢量地图元素异常检测方法_之江实验室_202410457517.7

基于无监督的语音转换方法、装置、设备及介质_平安科技(深圳)有限公司_202110484054.X

一种基于线条级标注的弱监督病理图像分割系统_北京透彻未来科技有限公司_202410194391.9

基于记忆自编码器的无监督背景重建缺陷检测方法及系统_滨州魏桥国科高等技术研究院_202410520495.4

基于多任务自监督学习的医疗数据疾病识别模型构建方法_内蒙古卫数数据科技有限公司_202410312341.6

适用于离线强化学习的无监督数据生成框架_清华大学_202410391685.0

一种基于多形态监督文本引导的船舶检测方法及系统_杭州华是智能设备有限公司_202410501232.9

故障录波辨识的抽水蓄能电站设备监督系统_青海哇让抽水蓄能有限公司_202410279589.7

一种基于自监督学习的快速磁共振扩散成像重建方法_贵州大学_202410688048.X

学习相关技术

一种面向情境学习的机器学习模型训练的方法及系统_广东电网有限责任公司_202410368726.4

基于儿童学习偏好和智能教练的自适应学习方法和系统_昫爸教育科技(北京)有限公司_202310980805.6

节气门开度传感器的学习装置及学习方法_株式会社三国_202311446617.1

存储器优化的对比学习_谷歌有限责任公司_202280076446.5

机器学习辅助的图像预测_苹果公司_201980070345.5

用于持续学习的方法和装置_罗伯特·博世有限公司_202180103671.9

一种在线视频学习中学习者注意状态智能检测系统及方法_陕西师范大学_202110305497.8

管理使用机器学习过程训练的模型_皇家飞利浦有限公司_202280073390.8

深度学习加速器系统及其方法_阿里巴巴集团控股有限公司_201980009631.0

一种挂脖式学习机_佛山市生命树文化传播有限公司_202322058516.9

强化相关技术

用于软组织增强和强化的支架_斯玛特费姆医疗技术私人有限公司_202280058474.4

基于中心区域强化的乳腺肿块检测装置_中南民族大学_202410379358.3

一种行星轮式钢球强化研磨装置_无锡金牛钢球有限公司_202410670889.8

强化方法、不等厚柔性玻璃和电子设备_深圳市锐尔觅移动通信有限公司_202211701495.1

一种超声强化研磨装置_广州大学_202410516187.4

一种锁扣式强化地板_安徽扬子地板股份有限公司_202322730769.6

一种强化烟气循环烧结的方法_武汉钢铁有限公司_202410375407.6

环氧树脂组合物、含有强化纤维的环氧树脂组合物、预浸料及使用它们的纤维强化塑料_日铁化学材料株式会社_202311791034.2

基于安全强化学习的列车节能运行控制方法及相关装置_五邑大学_202410151452.3

基于多智能体深度强化学习的无人机辅助边缘卸载方法_东南大学_202410521461.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

适用于离线强化学习的无监督数据生成框架

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务