一种基于稀疏奖励环境强化学习探索的生产线决策方法

导航：龙图腾网> 最新专利技术> 一种基于稀疏奖励环境强化学习探索的生产线决策方法

申请/专利权人：北京航空航天大学

申请日：2024-04-11

公开（公告）日：2024-06-25

公开（公告）号：CN118246635A

主分类号：G06Q10/063

分类号：G06Q10/063;G06Q50/04;G06N3/092;G06N3/0455

优先权：

专利状态码：在审-公开

法律状态：2024.06.25#公开

摘要：本发明公开一种基于稀疏奖励环境强化学习探索的自动化生产线自主决策方法，根据各种车间生产数据训练功能奖励编码FRE网络，将各种随机无监督奖励编码到统一潜在空间中，将奖励状态对的上下文集映射到函数输出；使用内隐Q‑learning作为离线强化学习方法训练无条件策略，Q函数为每个动作分配一个值，帮助智能体选择最优的动作来达到最优决策；最终得到一个在给定奖励函数下执行任务的功能奖励编码FRE智能体；引入探索框架增强对生产任务分配等相关内容的探索能力，利用从结构互信息原理衍生的动态相关表示，并通过最大化结构熵来增强由智能体策略约束的状态‑行为空间的覆盖范围，通过计算状态和行为之间结构信息来推动生产线自动决策、自动分配生产任务探索。

主权项：1.一种基于稀疏奖励环境强化学习探索的生产线决策方法，其特征在于，包括步骤：S10,数据采集，包括生产环境数据、动作数据、状态数据、离线数据；对采集的数据进行预处理，提高数据的质量、可用性和表达能力；利用随机无监督函数混合构造的先验分布以及预处理后的各种生产数据；S20,根据各种生产数据训练一个功能奖励编码FRE网络，该网络的目标是将各种随机无监督奖励编码到一个统一的潜在空间中，将奖励状态对的上下文集映射到函数输出；使用内隐Q-learning作为离线强化学习方法来训练无条件策略，Q函数为每个动作分配一个值，帮助智能体选择最优的动作来达到分配生产任务的目标；最终得到一个在给定奖励函数下执行任务的功能奖励编码FRE智能体；S30为了增强自主生产决策智能体的探索能力，引入了一个探索框架；该框架利用从结构互信息原理衍生的动态相关表示，并通过最大化结构熵来增强由智能体策略约束的状态-行为空间的覆盖范围：这个探索框架通过计算状态和行为之间的结构互信息来推动生产决策任务的探索。

全文数据：

权利要求：

百度查询：北京航空航天大学一种基于稀疏奖励环境强化学习探索的生产线决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种工业物联网网关

下一篇：一种地垫

相关技术

一种工业物联网网关

一种地垫

一种可快速拼接的安装架

一种金属管件抛光打磨装置

一种水冷导槽夹紧器

一种刀片可调节的修边机

一种高效物流包装码垛装置

转向拉杆总成、转向拉杆和车辆

一种改良聚乙烯颗粒物挤出成型设备

一种用于储水桶的多重密封结构

一种稳固性良好的电动自行车

一种土工格栅注塑模具

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于稀疏奖励环境强化学习探索的生产线决策方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务