首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】面向动态柔性车间调度的深度Q网络训练方法及调度方法_四川大学_202410165000.0 

申请/专利权人:四川大学

申请日:2024-02-05

公开(公告)日:2024-06-14

公开(公告)号:CN118192446A

主分类号:G05B19/418

分类号:G05B19/418

优先权:

专利状态码:在审-公开

法律状态:2024.06.14#公开

摘要:本发明公开了一种面向动态柔性车间调度的深度Q网络训练方法及调度方法,其中深度Q网络训练方法包括S1获取经验回放数据S,A,R,S*,S2在经验回放数据中随机采样若干经验数据输入深度Q网络,输出长度与调度规则数量相同的向量,向量中的每一个值代表选择该调度规则的Q值;S3根据候选操作和空闲机器编码决策点处的调度方案,以形成初始化种群;S4采用遗传算法计算种群中获取的最优个体的适应度作为目标值,记为值Q′,并基于Q值和值Q′对深度Q网络的网络参数进行更新;S5将训练次数累加一次,并判断训练次数是否达到最大训练次数,若是,输出训练完成的深度Q网络,否则返回步骤S2。

主权项:1.面向动态柔性车间调度的深度Q网络训练方法,其特征在于,包括步骤:S1、获取经验回放数据S,A,R,S*,其中,S为车间状态,A为给定状态下选择的动作集,R为车间环境反馈的奖励值,S*为转移后的状态;S2、在经验回放数据中随机采样若干经验数据输入深度Q网络,输出长度与调度规则数量相同的向量,向量中的每一个值代表选择该调度规则的Q值;S3、根据候选操作和空闲机器编码决策点处的调度方案,以形成初始化种群;S4、采用遗传算法计算种群中获取的最优个体的适应度作为目标值,记为值Q′,并基于Q值和值Q′对深度Q网络的网络参数进行更新;S5、将训练次数累加一次,并判断训练次数是否达到最大训练次数,若是,输出训练完成的深度Q网络,否则返回步骤S2。

全文数据:

权利要求:

百度查询: 四川大学 面向动态柔性车间调度的深度Q网络训练方法及调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术