申请/专利权人:四川大学
申请日:2024-02-05
公开(公告)日:2024-06-14
公开(公告)号:CN118192446A
主分类号:G05B19/418
分类号:G05B19/418
优先权:
专利状态码:在审-公开
法律状态:2024.06.14#公开
摘要:本发明公开了一种面向动态柔性车间调度的深度Q网络训练方法及调度方法,其中深度Q网络训练方法包括S1获取经验回放数据S,A,R,S*,S2在经验回放数据中随机采样若干经验数据输入深度Q网络,输出长度与调度规则数量相同的向量,向量中的每一个值代表选择该调度规则的Q值;S3根据候选操作和空闲机器编码决策点处的调度方案,以形成初始化种群;S4采用遗传算法计算种群中获取的最优个体的适应度作为目标值,记为值Q′,并基于Q值和值Q′对深度Q网络的网络参数进行更新;S5将训练次数累加一次,并判断训练次数是否达到最大训练次数,若是,输出训练完成的深度Q网络,否则返回步骤S2。
主权项:1.面向动态柔性车间调度的深度Q网络训练方法,其特征在于,包括步骤:S1、获取经验回放数据S,A,R,S*,其中,S为车间状态,A为给定状态下选择的动作集,R为车间环境反馈的奖励值,S*为转移后的状态;S2、在经验回放数据中随机采样若干经验数据输入深度Q网络,输出长度与调度规则数量相同的向量,向量中的每一个值代表选择该调度规则的Q值;S3、根据候选操作和空闲机器编码决策点处的调度方案,以形成初始化种群;S4、采用遗传算法计算种群中获取的最优个体的适应度作为目标值,记为值Q′,并基于Q值和值Q′对深度Q网络的网络参数进行更新;S5、将训练次数累加一次,并判断训练次数是否达到最大训练次数,若是,输出训练完成的深度Q网络,否则返回步骤S2。
全文数据:
权利要求:
百度查询: 四川大学 面向动态柔性车间调度的深度Q网络训练方法及调度方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。