Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 河北远东通信系统工程有限公司宋凯磊获国家专利权

河北远东通信系统工程有限公司宋凯磊获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉河北远东通信系统工程有限公司申请的专利一种多任务多准则资源调度的深度图强化学习生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119204095B

龙图腾网通过国家知识产权局官网在2025-04-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411585891.1,技术领域涉及:G06N3/042;该发明授权一种多任务多准则资源调度的深度图强化学习生成方法是由宋凯磊;韩志卓;靳亚宾;张世立;陈望;陈晓东;杨泽崇;丁宅伟;王晓霖;张松轶;康志杰设计研发完成,并于2024-11-08向国家知识产权局提交的专利申请。

一种多任务多准则资源调度的深度图强化学习生成方法在说明书摘要公布了:本发明提出一种多任务多准则资源调度的深度图强化学习生成方法,属于应急资源调度领域;其把多任务资源调度问题建模转化为以目标导向、多约束条件下的图生成问题,包括离线模型训练阶段和在线方案生成反馈训练优化阶段。构造基于层次分析法和遗传精英算法伪标签训练数据集;设计了可行解状态特征提取单元用于表征灾害点、资源点匹配度,基于可行解状态通过图神经网络提取节点隐藏特征,以节点隐藏特征为基础采用强化学习逐步生成资源调度方案图;采用条件生成对抗网络框架,使得生成的结果更有针对性。

本发明授权一种多任务多准则资源调度的深度图强化学习生成方法在权利要求书中公布了:1.一种多任务多准则资源调度的深度图强化学习生成方法,其特征在于,包括以下步骤:步骤1,通过遵循应急场景资源调度准则的遗传精英算法求解器,构造资源调度伪标签数据;步骤2,构造多任务多准则的多资源调度图强化学习生成模型,采用条件生成对抗学习框架交替训练多资源调度图强化学习生成模型与判别器,直至动态平衡;步骤3,多资源调度图强度学习生成模型生成资源调度方案;步骤4,人为调整资源调度方案,奖惩反馈多资源调度图强度学习生成模型;所述步骤1的具体过程如下:在满足资源调度任务全局时间满意度最高、全局资源数目满意度最高和全局资源调度运输成本最低的准则下,使用层次分析法确定各准则的权重,多资源调度的目标函数为: ;F1为任务全局时间满意度,F2为全局资源数目满意度,F3为全局资源调度运输成本;通过模拟生成多组灾害点资源点经纬度位置、各灾害点所需资源数目、各资源点具备资源数目信息,使用遗传精英算法并行求解目标函数取最优解作为不同场景下资源调度方案解,用于构造资源调度伪标签数据;所述步骤2的具体过程如下:获取到灾害点经纬度坐标、灾害点资源需求量和资源点经纬度坐标,资源点资源提供量作为模型初始条件,搭建多资源调度图强化学习生成模型,多资源调度图强化学习生成模型包含可行解状态特征提取单元、状态构造、动作构造、奖励机制构造和策略网络构造;其中,可行解状态特征提取单元用于表征灾害点和资源点匹配度;基于可行解状态通过图神经网络提取节点隐藏特征,以节点隐藏特征为基础采用强化学习逐步生成资源调度方案图;多资源调度图强化学习生成模型的状态描述为: ,其中为资源调度图邻接矩阵,表示当前资源的调度情况,为节点特征矩阵,代表每个节点当前的特征;多资源调度图强化学习生成模型的动作描述为: ;用于添加一条资源点-灾害点匹配边,为物资从点调度至点,T为终止标志;具体包括如下计算过程:步骤211,选取的第一个节点的类型分别为应急点、资源点的概率,并以资源点的概率分布生成节点类型;步骤212,以步骤211生成的节点类型为依据,若为灾害点,则计算选择每个灾害点为新增加边第一个端点的概率,以概率分布生成要匹配的灾害点;若为资源点,则计算选择每个资源点为新增加边第一个端点的概率,以概率分布生成要匹配的资源点;步骤213,计算每个节点与步骤212中选取点匹配的概率,并以该概率分布生成与之匹配的点;步骤214,连接步骤212与步骤213相匹配的点,并生成新边;步骤215,判断是否终止,若灾害点全部需求得到满足,或已无可调度资源,终止标志T为True,否则T为False;多资源调度图强化学习生成模型的训练周期内奖励机制为: ; 为一个训练周期内采用动作所得到的总回报,是步的规则奖励,奖励函数为,F1为任务全局时间满意度,F2为全局资源数目满意度,F3为全局资源调度运输成本;为折扣系数;是一个训练周期内的长远步数;为周期终止奖励,奖励函数设置为:,通过状态下的资源调度图与伪标签资源调度图的差异性程度来决定奖励度;图神经网络作为多资源调度图强化学习生成模型的策略网络,其根据当前节点状态生成节点的动作概率分布,取概率最大的动作为当前节点状态的执行动作,策略网络由输入层、两层图神经层和输出层4部分组成,两层神经层的激活函数分别是ReLU和Softmax,策略网络结构函数式为: s为当前资源调度状态;为灾害点、资源点匹配度邻接矩阵,邻接矩阵的值通过计算节点隐藏特征相似性得到;、为图神经层的权重矩阵;,表示执行动作概率,为状态s下执行的动作;采用条件生成对抗网络框架,以步骤1生成的伪标签数据为正样本,多资源调度图强化学习生成模型生成的资源调度图数据为负样本;设伪标签数据的分布为,强化学习生成器生成的分布为,交叉熵损失函数定义如下: ;其中表示伪标签数据中任意的初始灾害点、资源点位置分布以及需求、资源数目输入条件数据,为在该条件输入下求解器得到的资源调度方案图伪标签;表示在生成器中给定输入条件x生成的假数据,而表示判别器在伪标签数据上的判段结果,表示判别器在强化学习生成的假数据上判断出的结果;固定多资源调度强化学习生成模型,训练判别器D最大化交叉熵损失;固定判别器D,训练多资源调度强化学习生成模型,最小化交叉熵损失;交替迭代训练直到动态平衡。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河北远东通信系统工程有限公司,其通讯地址为:050200 河北省石家庄市鹿泉经济开发区昌盛大街21号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。