买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:河南大学
摘要:本发明提出了一种分布式多无人机中继网络覆盖的方法,其步骤为:首先,建立多无人机通讯信道模型、能耗模型以及协同轨迹优化数学模型,并转换为马尔科夫博弈模型;其次,搭建集中训练分布式执行的多智能体深度强化学习算法,为每个无人机配备一个行动器和一个评价器,行动器根据无人机状态信息输出飞行轨迹,评价器输出对应的行动价值以训练行动器;最后,构建了双数据流结构的行动器,以提高无人机的动态性;构建了分层多头注意力编码器,利用注意力机制,使无人机能够抑制冗余信息,增加相关协作无人机的关系权重,从而建立正确复杂的协作关系。本发明通过协同优化无人机集群的飞行轨迹和协作策略,实现最大化无人机的网络吞吐量和能效。
主权项:1.一种分布式多无人机中继网络覆盖的方法,其特征在于,其步骤如下:步骤一:建立多无人机通讯信道模型、能耗模型以及协同轨迹优化数学模型,并将协同轨迹优化数学模型转换为马尔科夫博弈模型;步骤二:基于马尔科夫博弈模型,搭建集中训练分布式执行的多智能体深度强化学习算法,为每个无人机配备一个行动器和一个评价器,行动器根据无人机状态信息输出飞行轨迹,评价器输出对应的行动价值以训练行动器;所述多智能体深度强化学习算法为:N个无人机的状态集合为为每个智能体观测到的局部信息,以及无人机的动作集状态转换函数为PSm+1|Sm,Am,即给定每个智能体当前状态和行动,输出下一时刻状态概率分布;奖励函数RSm,Am,给定无人机的当前状态和行动集合,输出每个无人机的奖励;期望折现回报函数Jiπi表示为: 其中,为在Sm状态下,所有智能体分别采取动作获得奖励值,πi为每个智能体学习到的策略函数,γ∈[0,1]代表奖励的衰减值;为在a1~π1,…,aN~πN条件下的期望;引入行动熵的策略梯度公式如下: 其中,表示梯度,表示期望折现回报函数,Εo~B,a~π表示期望,为策略函数,其网络输出为每个动作对应的概率值,为评价器,表示所有无人机的局部状态信息,表示所有无人机的动作,α为动作熵的系数,θi和ψi分别为行动器和评价器的网络参数,B是存储经验的缓冲区,它存储每个无人机时隙m的局部状态观察值选取的动作值采取动作后的得到的状态值以及对应获得的奖励 网络的损失函数为: 其中,ε∈[0,1],是目标Q值网络,为目标策略网络,是目标批评家网络的网络参数,是目标策略网络的网络参数;步骤三:针对行动器,建立双数据流结构网络,利用双数据流结构网络处理无人机的状态信息,输出无人机飞行轨迹;步骤四:针对评价器,建立分层多头注意力编码器,通过注意力机制去除其他无人机的冗余信息,根据任务关联程度生成不同注意力等级,建立有效的合作策略;步骤五:设计安全势场、吞吐量、无人机能耗相关的奖励函数,引导无人机学习到正确的协同轨迹优化策略实现中继网络覆盖;步骤六:搭建多无人机协同部署中继网络的仿真环境,采用交互式训练的方式,训练每个无人机互相协作完成多跳的中继网络覆盖任务。
全文数据:
权利要求:
百度查询: 河南大学 一种分布式多无人机中继网络覆盖的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。