首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于反事实策略梯度的无人机集群路由计算方法_北京邮电大学;中国电子信息产业集团有限公司第六研究所_202110774836.7 

申请/专利权人:北京邮电大学;中国电子信息产业集团有限公司第六研究所

申请日:2021-07-09

公开(公告)日:2024-05-17

公开(公告)号:CN113645589B

主分类号:H04W4/40

分类号:H04W4/40;H04W40/02;H04W40/12;H04W40/22;H04W84/08

优先权:

专利状态码:有效-授权

法律状态:2024.05.17#授权;2021.12.14#实质审查的生效;2021.11.12#公开

摘要:本发明公开一种基于反事实策略梯度的无人机集群路由计算方法,包括采用一种COMA动态自适应的强化学习算法,所述COMA算法采用了“集中式训练‑分布式执行”的混合架构。能够有效针对网络节点动态性高、网内流量波动性大的路由场景,COMA算法能够在网络平均生存时间与数据包传输成功率之间形成有效的权衡,进而实现高效而稳定的智能路由策略;能够更好地动态调正路由策略,实现对网络状态的全局最优响应。关于数据包将所选择的区域中的任意一个随机节点作为下一跳传输节点的设计,该设计不仅解决了多智能体环境下动作空间较大的问题,还提高了算法的稳定性,一定程度上减少了节点移动性对训练造成的干扰。

主权项:1.一种基于反事实策略梯度的无人机集群路由计算方法,包括采用一种COMA动态自适应的强化学习算法,其特征在于:所述COMA算法采用了“集中式训练-分布式执行”的混合架构,所有智能体共享一个联合的criticnetwork,并分别维护一个actornetwork并只基于在路由中进行局部观察;COMA算法通过比较智能体遵循当前actornetwork进行决策得到的全局回报与遵循某个默认策略进行决策得到的全局回报,用以解决多智能体信用分配问题,其信用分配机制的核心更新公式如下: 其中,Qs,u代表所有智能体在当前状态下基于联合动作u的整体Q值,而后一项通过求加权平均的方式,计算了智能体a进行所有动作的“平均效用值”,用该值来近似代替智能体a的“默认效用值”;因此,前后两项相减的意义在于:在全局的整体Q值中,用于探索智能体a的独立回报值;结合所述COMA算法架构和路由中的局部观察并将该问题抽象为逐跳路由的范式;因此,对于各无人机在每个训练步骤中进行的路由转发过程,主要由三部分构成:1状态值:[当前数据包终点{区域id+节点id}|当前节点{区域id+节点id}|当前节点缓存];2动作值:[下一跳节点的区域id]在传输范围内,可选区域即当前区域与相邻区域;3单步奖励:t1*当前节点缓存-下一跳区域平均缓存+t2*下一跳离终点更近更远。

全文数据:

权利要求:

百度查询: 北京邮电大学;中国电子信息产业集团有限公司第六研究所 一种基于反事实策略梯度的无人机集群路由计算方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。