首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于平均奖赏强化学习的MTO企业订单接受方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国人民解放军国防科技大学

摘要:本发明公开一种基于平均奖赏强化学习的MTO企业订单接受方法,包括以下步骤:订单信息假设、确定系统状态集、确定系统动作集、确定立即回报函数、构建订单接受模型和订单接受模型求解;本发明在传统MTO企业订单接受问题考虑的因素基础上,增加了订单库存成本及多种顾客优先级因素,构建了半马尔科夫决策过程订单接受模型,运用SMART算法进行求解,并在此基础上,对已接受的订单运用贪心算法进行排序生产,以最大化企业长期平均收益,不仅有较高的订单接受选择能力,而且对环境变化具有较好的适应能力,能够权衡订单利润与各项成本为MTO企业带来更高的收益,同时还能满足客户的个性化需求,与客户保持密切的联系。

主权项:1.一种基于平均奖赏强化学习的MTO企业订单接受方法,其特征在于:包括以下步骤:步骤一:订单信息假设假设MTO企业通过单一生产线生产,且市场上存在n种类型的顾客订单,订单信息包括顾客优先级μ、价格p、数量Q、单位产品生产成本c、提前期LT及最迟交货期DT;步骤二:确定系统状态集根据步骤一,若系统中有n种订单类型,则系统状态可由向量S表示:S=μ,p,Q,LT,DT,T,其中T表示决策阶段之前已接受的订单仍需要的生产时间;步骤三:确定系统动作集根据步骤一,当有顾客订单到达时,需要做出接受和拒绝订单的决策,模型中的动作集合可由向量A=a1,a2表示,其中a1表示接受订单,a2表示拒绝订单;步骤四:确定立即回报函数MTO企业在做出是否接受订单决策后,获得的立即回报函数为: 公式中I=p*Q,表示获得该订单的利润,C=c*Q,表示消耗的生产成本,Y表示企业的延期惩罚成本,N表示产生库存成本的费用,J表示订单的拒绝成本;步骤五:构建订单接受模型根据系统状态集、系统动作集和立即回报函数构建半马尔科夫决策过程订单接受模型,并基于平均奖赏强化学习的思想模拟现实的MTO企业订单接受问题,根据贝尔曼最优定理,半马尔科夫决策过程问题中相应的最优策略为: 其中表示决策期m获得的平均回报,tm表示决策期m由状态s转移到状态s'的时间;步骤六:订单接受模型求解采用强化学习平均奖赏作为评价目标,通过平均奖赏强化学习SMART算法对半马尔科夫决策过程订单接受模型进行求解,并在SMART算法中运用贪心算法对订单进行排序,得到订单接收最优决策,平均奖赏强化学习SMART算法的更新公式为: 式中α表示学习率,m表示当前迭代索引,rms,a,s′表示在状态s采取动作a后获得的立即回报,tms,a,s′表示由状态s转移到s'的时间,Rm表示第m个决策时期的累积回报,ρm表示第m个决策时期的平均回报,tm表示第m个决策时期的累计时间。

全文数据:

权利要求:

百度查询: 中国人民解放军国防科技大学 一种基于平均奖赏强化学习的MTO企业订单接受方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。