一种基于平均奖赏强化学习的MTO企业订单接受方法

导航：龙图腾网> 最新专利技术> 一种基于平均奖赏强化学习的MTO企业订单接受方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国人民解放军国防科技大学

摘要：本发明公开一种基于平均奖赏强化学习的MTO企业订单接受方法，包括以下步骤：订单信息假设、确定系统状态集、确定系统动作集、确定立即回报函数、构建订单接受模型和订单接受模型求解；本发明在传统MTO企业订单接受问题考虑的因素基础上，增加了订单库存成本及多种顾客优先级因素，构建了半马尔科夫决策过程订单接受模型，运用SMART算法进行求解，并在此基础上，对已接受的订单运用贪心算法进行排序生产，以最大化企业长期平均收益，不仅有较高的订单接受选择能力，而且对环境变化具有较好的适应能力，能够权衡订单利润与各项成本为MTO企业带来更高的收益，同时还能满足客户的个性化需求，与客户保持密切的联系。

主权项：1.一种基于平均奖赏强化学习的MTO企业订单接受方法，其特征在于：包括以下步骤：步骤一：订单信息假设假设MTO企业通过单一生产线生产，且市场上存在n种类型的顾客订单，订单信息包括顾客优先级μ、价格p、数量Q、单位产品生产成本c、提前期LT及最迟交货期DT；步骤二：确定系统状态集根据步骤一，若系统中有n种订单类型，则系统状态可由向量S表示：S＝μ,p,Q,LT,DT,T，其中T表示决策阶段之前已接受的订单仍需要的生产时间；步骤三：确定系统动作集根据步骤一，当有顾客订单到达时，需要做出接受和拒绝订单的决策，模型中的动作集合可由向量A＝a1,a2表示，其中a1表示接受订单，a2表示拒绝订单；步骤四：确定立即回报函数MTO企业在做出是否接受订单决策后，获得的立即回报函数为：公式中I＝p*Q，表示获得该订单的利润，C＝c*Q，表示消耗的生产成本，Y表示企业的延期惩罚成本，N表示产生库存成本的费用，J表示订单的拒绝成本；步骤五：构建订单接受模型根据系统状态集、系统动作集和立即回报函数构建半马尔科夫决策过程订单接受模型，并基于平均奖赏强化学习的思想模拟现实的MTO企业订单接受问题，根据贝尔曼最优定理，半马尔科夫决策过程问题中相应的最优策略为：其中表示决策期m获得的平均回报，tm表示决策期m由状态s转移到状态s'的时间；步骤六：订单接受模型求解采用强化学习平均奖赏作为评价目标，通过平均奖赏强化学习SMART算法对半马尔科夫决策过程订单接受模型进行求解，并在SMART算法中运用贪心算法对订单进行排序，得到订单接收最优决策，平均奖赏强化学习SMART算法的更新公式为：式中α表示学习率，m表示当前迭代索引，rms,a,s′表示在状态s采取动作a后获得的立即回报，tms,a,s′表示由状态s转移到s'的时间，Rm表示第m个决策时期的累积回报，ρm表示第m个决策时期的平均回报，tm表示第m个决策时期的累计时间。

全文数据：

权利要求：

百度查询：中国人民解放军国防科技大学一种基于平均奖赏强化学习的MTO企业订单接受方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种中医针灸辅助装置

下一篇：一种带有封堵机构的注液套杯组件

相关技术

一种中医针灸辅助装置

一种带有封堵机构的注液套杯组件

一种带有扭簧结构的碳带回收轴

通过光学衍射改善粒度

水封逆止阀及其使用方法

一种防脱组件及球磨机衬板安装结构

用于治疗三尖瓣功能不全的系统、方法和装置

一种大数据支持的交通碳排放监测方法及监测系统

一种市政道路铺砖装置

一种具有抹平结构的高分子胶涂胶设备

基于AI的PCB或半导体多工序生产设备组合优化方法

一种船舶激振装置及船体振动试验分析方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于平均奖赏强化学习的MTO企业订单接受方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务