Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 重庆大学鄢萌获国家专利权

重庆大学鄢萌获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉重庆大学申请的专利基于深度确定性策略梯度算法的卫星互联网资源调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119094449B

龙图腾网通过国家知识产权局官网在2025-05-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411089778.4,技术领域涉及:H04L47/125;该发明授权基于深度确定性策略梯度算法的卫星互联网资源调度方法是由鄢萌;彭峰;梁承超;侯世康;殷涛;张小洪设计研发完成,并于2024-08-09向国家知识产权局提交的专利申请。

基于深度确定性策略梯度算法的卫星互联网资源调度方法在说明书摘要公布了:本发明涉及一种基于深度确定性策略梯度算法的卫星互联网资源调度方法,该方法首先提出了一种基于TEG的星上SFC分流机制。其次,在TEG分流模式下,建立了流量守恒约束,并结合资源容量约束和流速非负性约束,构建了SFC的最小流速率最大化模型。然后,由于流量工程问题属于连续动作,因此采用基于DDPG的SFC流量工程方法对该问题进行求解。仿真结果表明,TEG分流机制可以有效提升最小流速率,并且与基准方法比较,所提方法的性能更优,且收敛速度优于基准方法。

本发明授权基于深度确定性策略梯度算法的卫星互联网资源调度方法在权利要求书中公布了:1.一种基于深度确定性策略梯度算法的卫星互联网资源调度方法,其特征在于:包括如下步骤:S1:建模一个多卫星节点多服务功能链SFC的卫星网络SDSN,令SDSN表示为有向图GV,E,其中V是节点的集合,E是链路的集合,E包括物理链路集Evv和卫星在相邻时隙之间的储存链路集Ev;时间演化图TEG将总时间划分为T个时间间隙,每个时隙的长度为η,令t∈T表示为时隙的索引,在TEG中,用it,jt∈Evv表示两颗不同卫星之间的物理链路,用it,it+1∈Ev表示同一颗卫星的连续时隙之间的存储链路;令K={1,2,...,k,...}表示SDSN中的SFC请求集合,对于k∈K,表示VNFs的有序集合,表示第k个SFC的第n个VNF;最后一个VNF表示为m表示VNFs的个数;和分别表示第k个SFC的源节点和目的节点;S2:假设在同一个时隙内,只能部署在一个卫星节点上,将VNF部署约束建模为: 其中it表示卫星节点i在第t个时隙的副本,为VNF部署指示变量,表示第个VNF部署的位置为节点it,反之则表示第个VNF部署的位置不在节点it上;定义yk为第k个SFC的流量速率,定义变量为第k个SFC在链路it,jd∈E的流量速率,其中,表示第k个SFC在链路it,jt∈Evv的流量速率,表示第k个SFC在链路it,it+1∈Ev的流量速率;流量速率表示为: 其中表示第k个SFC在通过第个VNF后,链路it,jd∈E的流量速率,表示一个位于源节点上的辅助VNF,标识尚未经过任何VNF处理的SFC流;S3:卫星节点的计算资源约束建模为: 其中表示在链路jd,jt上通过第个VNF处理后的流量速率,表示节点it的计算资源容量;表示单位数据流速的计算资源需求;此外,链路的带宽资源容量表示为: 其中表示链路it,jt的带宽资源容量,表示第k个SFC在链路it,jt∈Evv的流量速率;S4:分情况构建关于TEG分流模型的流守恒约束条件;S5:设置最大化所有SFC的最小流速率ymin为优化目标: 对SFC的流量速率以及每个SFC各个阶段的流量速率施加非负性约束,并建模为:yk≥0 S6:将SDSN网络的控制器作为对SFC部署进行集中控制的智能体,将优化问题建模为适用于深度强化学习求解的MDP模型,定义状态空间、动作空间及奖励函数;S7:基于DDPG模型求解S6构建的MDP模型,得到最优SFC部署;所述DDPG模型包括Actor网络、Critic网络以及经验回放池,Actor网络的当前网络πs及其目标网络π′s的参数分别为θπ和θπ′,Critic网络的当前网络Qs,a及其目标网络Q′s,a的参数分别为θQ和θQ′,Actor网络负责动作筛选以及策略制定,并分别根据策略梯度上升和损失函数的梯度下降更新Actor网络和Critic网络参数,Critic网络负责对生成的策略进行评估,经验回放池用来储存状态st,动作at,rt和下一个状态st+1构成的经验元组;初始化Actor网络和Critic网络的参数以及经验回放池,在每一轮迭代中更新Actor网络和Critic网络的参数;向DDPG模型输入st,从Actor网络中得到at,将at应用到st中,SDSN控制器进行SFC部署,此时得到rt并更新st+1,将st,at,rt,st+1作为一个经验元组保存到经验回放池中,当经验回放池填满后,最早的经验元组将会被新的经验元组替代;从经验回放池中随机选取小批量经验元组进行训练,在最大化期望累计折扣奖励的目标下,通过梯度求解进行Actor网络和Critic网络的参数更新,期望累计折扣奖励是指在策略执行过程中,从当前状态开始,未来所有可能得到的奖励之和的期望值;状态-动作值函数Qπst,at用来估计给定状态和动作下的期望累计折扣奖励;Qπst,at=E[rt+γQπst+1,at+1]其中,rt表示即时奖励,γQπst+1,at+1表示未来折扣奖励,γ表示折扣因子,取值范围是0≤γ≤1;通过Actor网络和Critic网络的参数更新指导SDSN控制器在下一轮迭代中更好地进行SFC部署,直到训练轮次到达设定的最大值,优化任务的期望累计折扣奖励最大化,表示训练结束,并得到最优SFC部署。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆大学,其通讯地址为:400044 重庆市沙坪坝区沙正街174号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。