【发明公布】面向动态柔性车间调度的深度Q网络训练方法及调度方法_四川大学_202410165000.0

导航：龙图腾网> 最新专利技术> 面向动态柔性车间调度的深度Q网络训练方法及调度方法_四川大学_202410165000.0

申请/专利权人：四川大学

申请日：2024-02-05

公开（公告）日：2024-06-14

公开（公告）号：CN118192446A

主分类号：G05B19/418

分类号：G05B19/418

优先权：

专利状态码：在审-公开

法律状态：2024.06.14#公开

摘要：本发明公开了一种面向动态柔性车间调度的深度Q网络训练方法及调度方法，其中深度Q网络训练方法包括S1获取经验回放数据S,A,R,S*，S2在经验回放数据中随机采样若干经验数据输入深度Q网络，输出长度与调度规则数量相同的向量，向量中的每一个值代表选择该调度规则的Q值；S3根据候选操作和空闲机器编码决策点处的调度方案，以形成初始化种群；S4采用遗传算法计算种群中获取的最优个体的适应度作为目标值，记为值Q′，并基于Q值和值Q′对深度Q网络的网络参数进行更新；S5将训练次数累加一次，并判断训练次数是否达到最大训练次数，若是，输出训练完成的深度Q网络，否则返回步骤S2。

主权项：1.面向动态柔性车间调度的深度Q网络训练方法，其特征在于，包括步骤：S1、获取经验回放数据S,A,R,S*，其中，S为车间状态，A为给定状态下选择的动作集，R为车间环境反馈的奖励值，S*为转移后的状态；S2、在经验回放数据中随机采样若干经验数据输入深度Q网络，输出长度与调度规则数量相同的向量，向量中的每一个值代表选择该调度规则的Q值；S3、根据候选操作和空闲机器编码决策点处的调度方案，以形成初始化种群；S4、采用遗传算法计算种群中获取的最优个体的适应度作为目标值，记为值Q′，并基于Q值和值Q′对深度Q网络的网络参数进行更新；S5、将训练次数累加一次，并判断训练次数是否达到最大训练次数，若是，输出训练完成的深度Q网络，否则返回步骤S2。

全文数据：

权利要求：

百度查询：四川大学面向动态柔性车间调度的深度Q网络训练方法及调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】面向动态柔性车间调度的深度Q网络训练方法及调度方法_四川大学_202410165000.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务