首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于稀疏奖励环境强化学习探索的生产线决策方法 

申请/专利权人:北京航空航天大学

申请日:2024-04-11

公开(公告)日:2024-06-25

公开(公告)号:CN118246635A

主分类号:G06Q10/063

分类号:G06Q10/063;G06Q50/04;G06N3/092;G06N3/0455

优先权:

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:本发明公开一种基于稀疏奖励环境强化学习探索的自动化生产线自主决策方法,根据各种车间生产数据训练功能奖励编码FRE网络,将各种随机无监督奖励编码到统一潜在空间中,将奖励状态对的上下文集映射到函数输出;使用内隐Q‑learning作为离线强化学习方法训练无条件策略,Q函数为每个动作分配一个值,帮助智能体选择最优的动作来达到最优决策;最终得到一个在给定奖励函数下执行任务的功能奖励编码FRE智能体;引入探索框架增强对生产任务分配等相关内容的探索能力,利用从结构互信息原理衍生的动态相关表示,并通过最大化结构熵来增强由智能体策略约束的状态‑行为空间的覆盖范围,通过计算状态和行为之间结构信息来推动生产线自动决策、自动分配生产任务探索。

主权项:1.一种基于稀疏奖励环境强化学习探索的生产线决策方法,其特征在于,包括步骤:S10,数据采集,包括生产环境数据、动作数据、状态数据、离线数据;对采集的数据进行预处理,提高数据的质量、可用性和表达能力;利用随机无监督函数混合构造的先验分布以及预处理后的各种生产数据;S20,根据各种生产数据训练一个功能奖励编码FRE网络,该网络的目标是将各种随机无监督奖励编码到一个统一的潜在空间中,将奖励状态对的上下文集映射到函数输出;使用内隐Q-learning作为离线强化学习方法来训练无条件策略,Q函数为每个动作分配一个值,帮助智能体选择最优的动作来达到分配生产任务的目标;最终得到一个在给定奖励函数下执行任务的功能奖励编码FRE智能体;S30为了增强自主生产决策智能体的探索能力,引入了一个探索框架;该框架利用从结构互信息原理衍生的动态相关表示,并通过最大化结构熵来增强由智能体策略约束的状态-行为空间的覆盖范围:这个探索框架通过计算状态和行为之间的结构互信息来推动生产决策任务的探索。

全文数据:

权利要求:

百度查询: 北京航空航天大学 一种基于稀疏奖励环境强化学习探索的生产线决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。