恭喜之江实验室;东南大学凌波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜之江实验室;东南大学申请的专利一种基于记忆增强学习的无人机自主避障导航方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115016534B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210620004.4,技术领域涉及:G05D1/46;该发明授权一种基于记忆增强学习的无人机自主避障导航方法是由凌波;项森伟;谢安桓;吴巍炜;傅忱忱;徐学永;张运涛;魏宁;高勇设计研发完成,并于2022-06-02向国家知识产权局提交的专利申请。
本一种基于记忆增强学习的无人机自主避障导航方法在说明书摘要公布了:本发明公开了一种基于记忆增强学习的无人机自主避障导航方法,克服了传统深度强化学习导航方法在部分可测环境中极易陷入局部困境的问题。首先把无人机自主避障导航问题建模为目标驱动的马尔可夫决策过程,提出动态相对目标的目标特征提取方法,引导无人机学习导航问题的本质特征;然后考虑到传统导航方法由于没有保存历史信息,导致无人机在部分可测环境中极易陷入局部困境,本发明设计了一种保存动作记忆和空间信息的记忆增强模块,在决策时额外考虑历史的观测以及动作序列,使无人机更易脱离困境;最后本发明提出基于高斯分布探索增强的深度强化学习算法,使其能够在提高算法收敛速度的前提下保持并提高无人机避障导航的成功率。
本发明授权一种基于记忆增强学习的无人机自主避障导航方法在权利要求书中公布了:1.一种基于记忆增强学习的无人机自主避障导航方法,其特征在于,包括如下步骤:步骤1:采用如下步骤把无人机自主避障导航问题定义为一个目标驱动的马尔可夫模型:对马尔科夫决策过程MDP五元组s,A,P,R,γ进行建模,其中s为无人机的输入状态,A为无人机的输出动作集,P为状态转移概率函数,R为奖励函数,γ为折扣系数;步骤2:根据步骤1建模出的马尔可夫决策过程五元组s,A,P,R,γ,基于DQN算法进行无人机避障导航策略求解并引入基于时序差分法的优先经验回放技术提高稀有样本的利用率;步骤3:设计一种应用于深度强化学习场景下的记忆模块保存动作记忆以及空间信息,额外考虑历史的观测以及动作序列,并提出一种额外的惩罚方法,给予无人机额外的奖励信号,结合历史记忆赋予智能体脱离部分困境的能力;步骤4:提出了基于高斯分布的强化学习探索增强方法并应用到DQN算法中,得到了高斯分布探索增强的GEDQN算法,从而验证高斯分布探索增强方法在基于值的强化学习算法以及基于演员评论家的强化学习算法中的有效性;所述步骤4具体包括如下:步骤4-1:利用深度强化学习算法学习到的值分布信息,设计一种基于状态-动作值分布采样的强化学习探索方法:基于值分布的强化学习算法在选择动作时,首先根据值分布采样得到状态s下某一动作对应的价值然后根据采样的结果选择对应的动作,在这种方法中,虽然不同动作值分布的均值大小是确定的,由于分布之间存在交叉,在选择动作时不一定选择到价值均值最大的动作,仍然具有随机性;而且随着强化学习算法的收敛,针对值分布估计逐渐准确,分布的方差也会逐渐变小,因此算法的探索性会随着收敛而逐渐降低,能够自动控制探索利用的均衡而不需要额外的操作;得到状态值分布的期望与方差之后,利用状态动作值分布进行采样从而利用策略进行探索;为了使用状态动作值分布信息,在每次计算状态动作值函数时,首先计算出当前状态的动作值函数的均值Qπs,a以及方差Dπs,a,然后按照该分布进行采样,得到最终的状态动作值函数并选择状态动作值函数价值最高的动作作为策略的输出,从而增加策略的随机性;最终的策略公式为: 步骤4-2:设计基于高斯分布探索增强的DQN算法:高斯分布的DQN算法GEDQN的结构类似于经典DQN算法,但是GEDQN算法同时预测了值函数的均值与方差,并采用EM距离作为值函数的误差函数;与DQN算法相同,该算法同样含有两个Q网络,分别用于计算当前的值分布以及目标值分布;在与环境进行交互时,由当前值网络进行策略的计算,并将生成的状态转换信息s,a,r,s′保存到记忆回放单元D中;在训练时,当前值网络用于计算当前状态动作对s,a对应的值分布信息,包含分布的均值Qs,a|θ以及方差Ds,a|θ;目标值网络根据下一状态信息计算所有动作对应的值分布信息,包含{Qs′,a′|θ′|a′∈A}以及{Ds′,a′|θ′|a′∈A},并周期性地同步当前值网络的参数从而对其网络参数进行更新;GEDQN的损失函数与传统DQN算法不同:在GE-DQN的损失函数中,首先根据{Qs′,a′|θ′|a′∈A}中选择使动作平均价值最大的动作a*,然后分别计算出Qs′,a*|θ′以及Ds′,a*|θ′作为下一状态的状态—动作值分布,然后依照最大化EM距离的方式对当前值网络进行优化,高斯DQN损失函数为: 在当前值网络与环境交互时,为了更好地均衡策略的探索与利用,使用基于值分布的自动探索方法替换传统DQN算法中的∈-greedy算法;具体来说,在状态s进行决策时,首先根据当前值网络计算每一个动作对应的Qs,a|θ以及Ds,a|θ,然后在每个动作对应的值分布中进行采样,得到每一个动作对应的价值然后选择采样得到的价值最大的动作作为策略的决策,也就是把结合记忆增强方法的GEDQN算法称为GEMEDQN算法,在GEMEDQN算法中,使用深度神经网络同时预测Qs,a与Ds,a,而且两者共享浅层网络的参数,并在最后一层分别添加一层全连接网络进行均值与方差的预测。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人之江实验室;东南大学,其通讯地址为:311100 浙江省杭州市余杭区之江实验室南湖总部;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。