一种表格型密集强化学习方法、计算机存储介质及终端

导航：龙图腾网> 最新专利技术> 一种表格型密集强化学习方法、计算机存储介质及终端

申请/专利权人：清华大学

申请日：2024-03-29

公开（公告）日：2024-06-25

公开（公告）号：CN118245763A

主分类号：G06F18/21

分类号：G06F18/21;G06F18/2415

优先权：

专利状态码：在审-公开

法律状态：2024.06.25#公开

摘要：本申请公开一种表格型密集强化学习方法、计算机存储介质及终端，包括：从关键状态集合中均匀采样初始状态，使得初始状态均为关键状态；根据学习率、时序差分误差及关键状态集合的示性函数，对未达到最优的兴趣事件的发生概率Qs,a进行更新学习。本公开实施例从关键状态集合中均匀采样初始状态，基于包含关键状态集合的示性函数实现兴趣事件的发生概率Qs,a的更新学习，使得训练数据包含的关键状态信息密集化，减少了计算量、节省了计算资源，提升了未达到最优的兴趣事件的发生概率Qs,a的学习效率。

主权项：1.一种表格型密集强化学习方法，其特征在于，包括：从关键状态集合中均匀采样初始状态，使得初始状态均为关键状态；根据学习率、时序差分误差及均匀采样后的关键状态集合的示性函数，对未达到最优的兴趣事件的发生概率Qs,a进行更新学习。

全文数据：

权利要求：

百度查询：清华大学一种表格型密集强化学习方法、计算机存储介质及终端

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：生产混凝土用碎石仓

下一篇：一种单因子加药泵回水安全阀

相关技术

生产混凝土用碎石仓

一种单因子加药泵回水安全阀

一种茶叶生产用高效翻炒装置

一种生态护坡绿化模块

气动搬运平台

一种带固定结构的冲压装置

一种数控机床主轴箱冷却装置

一种用于光伏发电装置的R型回转减速机

一种液体沥青取样装置

一种汽车质量块加工用刀具

一种低交叉极化抑制的宽带UWB天线及穿戴设备

一种连续制备五氯化磷的装置

学习相关技术

一种面向情境学习的机器学习模型训练的方法及系统_广东电网有限责任公司_202410368726.4

基于儿童学习偏好和智能教练的自适应学习方法和系统_昫爸教育科技(北京)有限公司_202310980805.6

节气门开度传感器的学习装置及学习方法_株式会社三国_202311446617.1

存储器优化的对比学习_谷歌有限责任公司_202280076446.5

机器学习辅助的图像预测_苹果公司_201980070345.5

用于持续学习的方法和装置_罗伯特·博世有限公司_202180103671.9

一种在线视频学习中学习者注意状态智能检测系统及方法_陕西师范大学_202110305497.8

管理使用机器学习过程训练的模型_皇家飞利浦有限公司_202280073390.8

深度学习加速器系统及其方法_阿里巴巴集团控股有限公司_201980009631.0

一种挂脖式学习机_佛山市生命树文化传播有限公司_202322058516.9

方法相关技术

编译方法、运行方法及相关产品_中科寒武纪科技股份有限公司_202211700640.4

参数控制方法以及曝光方法_上海交通大学_202410383008.4

测试单元及形成方法、测试结构及形成方法、测试方法_中芯国际集成电路制造(上海)有限公司_202211698757.3

预测模型生成方法、预测方法、设备和介质_博泰车联网科技(上海)股份有限公司_202211724925.1

获取方法、训练方法、任务处理方法及相关装置_浙江大华技术股份有限公司_202410693597.6

掩模图像生成方法、检查方法以及检查装置_日立安斯泰莫株式会社_202280076511.4

水文模型结构诊断方法、径流预报方法及装置_武汉大学_202111312143.2

分类模型训练方法以及分类方法_腾讯科技(深圳)有限公司_202210102315.1

建模方法及利用该建模方法的多类目标签的目标检测方法_小红书科技有限公司_202211695489.X

片间通信方法_中科寒武纪科技股份有限公司_202211681198.5

强化相关技术

用于软组织增强和强化的支架_斯玛特费姆医疗技术私人有限公司_202280058474.4

基于中心区域强化的乳腺肿块检测装置_中南民族大学_202410379358.3

强化方法、不等厚柔性玻璃和电子设备_深圳市锐尔觅移动通信有限公司_202211701495.1

一种超声强化研磨装置_广州大学_202410516187.4

一种行星轮式钢球强化研磨装置_无锡金牛钢球有限公司_202410670889.8

一种锁扣式强化地板_安徽扬子地板股份有限公司_202322730769.6

一种强化烟气循环烧结的方法_武汉钢铁有限公司_202410375407.6

环氧树脂组合物、含有强化纤维的环氧树脂组合物、预浸料及使用它们的纤维强化塑料_日铁化学材料株式会社_202311791034.2

一种基于强化学习的分层式区域协调信号控制方法_东南大学_202410354348.4

基于深度强化学习的分布式计算卸载方法及装置_湖南大学_202210120047.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种表格型密集强化学习方法、计算机存储介质及终端

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务