恭喜重庆邮电大学王高鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜重庆邮电大学申请的专利一种基于深度强化学习的四旋翼无人机悬停控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115617060B 。
龙图腾网通过国家知识产权局官网在2025-05-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211235114.5,技术领域涉及:G05D1/49;该发明授权一种基于深度强化学习的四旋翼无人机悬停控制方法是由王高鹏;郑瑞吉设计研发完成,并于2022-10-10向国家知识产权局提交的专利申请。
本一种基于深度强化学习的四旋翼无人机悬停控制方法在说明书摘要公布了:本发明请求保护一种基于深度强化学习的四旋翼无人机悬停控制方法,包括以下步骤:①初始化动作网络、动作标签网络、价值网络、价值标签网络和经验回放池。②根据当前环境和无人机状态,将状态向量作为动作神经网络输入层,将动作向量作为动作神经网络输出层。③无人机根据动作选择策略生成动作并作用于仿真环境。④仿真环境反馈即时奖励以及环境和无人机下一状态并将经验存入经验回放池。⑤从经验回放池提取经验并周期性更新动作标签网络和价值标签网络参数供动作网络和价值网络学习。本发明采用新探索利用机制和实时折扣率后,无人机训练速度相对于之前提前了200个时间步。
本发明授权一种基于深度强化学习的四旋翼无人机悬停控制方法在权利要求书中公布了:1.一种基于深度强化学习的四旋翼无人机悬停控制方法,其特征在于,包括以下步骤:步骤a,建立并初始化动作神经网络、动作标签神经网络、价值网络、价值标签神经网络和经验回放池,动作神经网络用于根据状态选择动作,价值网络用于评估某一状态下某一动作的价值,动作标签网络和价值标签网络用于计算深度学习标签,经验回放池用于存储并提取训练数据,经验回放池的数据包括四旋翼无人机悬停控制状态、动作、下一状态、奖励和终止信息,信息以向量组的形式进行存放;步骤b,根据步骤a所得动作神经网络、动作标签神经网络和经验回放池,将环境和无人机状态向量作为动作神经网络输入层,将动作向量作为价值神经网络输出层;步骤c,无人机根据动作选择策略进行探索或利用并生成相应动作,并与仿真环境进行实时交互;步骤d,仿真环境反馈即时奖励、环境和无人机下一状态,并将经验存入经验回放池;步骤e,从经验回放池提取经验并周期性更新动作标签网络和价值标签网络参数供动作网络和价值网络学习,根据学习结果进行四旋翼无人机悬停控制;所述步骤a中,所述价值网络和价值标签网络均为全连接神经网络,其数学表达式如下:q=Cs,a,w1式中,s向量为当前状态,C表示价值网络,q为当前状态动作价值,w向量为当前价值网络参数;价值标签网络作为价值网络副本,周期性地从价值网络中复制w向量实现价值标签计算;动作网络和动作标签网络均为全连接神经网络,其顺序表达式如下:a=As,w′2式中,s向量为当前状态,A表示动作网络,a为输出动作,w′向量为当前动作网络参数;动作标签网络作为动作网络副本,周期性地从动作网络中复制w′向量实现价值标签计算;经验回放池的数据包括状态、动作、下一状态、奖励和终止信息,其向量表达式如下:[s,a,s′,r,d]3;所述步骤b中,价值网络输入层对应环境和无人机当前状态,其向量表达式如下:[acc,gyro,z,pitch,roll,yaw,bv]4式中,acc表示无人机当前各坐标轴加速度计读数,gyro表示无人机当前各坐标轴陀螺仪读数,z表示气压计读数,pitch表示俯仰角,roll表示翻滚角,yaw表示偏航角,bv表示速度计读数;加速度计、陀螺仪和速度计读数具体向量表示如下:[accx,accy,accz,gyrox,gyroy,gyroz,bvx,bvy,bvz]5式中,accx表示加速度计沿x轴方向的读数,accy表示加速度计沿y轴方向的读数,accz表示加速度计沿z轴方向的读数;gyrox表示陀螺仪沿x轴方向的读数,gyroy表示陀螺仪沿y轴方向的读数,gyroz表示陀螺仪沿z轴方向的读数,bvx表示速度计沿z轴方向的读数,bvy表示速度计沿y轴方向的读数,bvz表示速度计沿z轴方向的读数;所述步骤b中,还包括以下处理步骤:首先对矩阵形式的状态数据进行拉伸处理,然后对拉伸后的数据进行归一化处理,初始价值标签网络为价值网络副本,网络结构和参数保持一致;经验回放池容量设置为10242,热缓冲区容量设置为256以保证训练时样本充足;所述步骤c无人机根据动作选择策略生成探索或利用动作并与仿真环境进行实时交互,具体包括:动作选择策略以1-∈的概率直接利用动作网络输出的动作,以∈的概率在动作网络输出的动作上添加高斯噪声,其数学表达式如下: 式中,∈表示智能体基于当前状态选择除动作价值最高以外其他动作的概率;∈为大于0并且小于1的实数,∈的值随着时间的推移而衰减,其衰减函数如下: 式中,t表示训练的回合数,∈的取值随着回合数的增加而减少,其原理在于边际效用递减原理;训练回合数即训练时间是稀缺资源,智能体选择探索的机会成本是基于当前状态价值网络预测的价值最大动作的价值;随着训练回合数增加,探索的边际效用递减,应逐步减少探索概率并同时增加利用概率;智能体以1-∈的概率利用时的数学表达式如下:a=As,w′8式子的物理意义是基于当前状态选择价值最高的动作即利用;w′表示当前动作网络参数;智能体以∈的概率进行探索时的方法是在动作网络输出的动作的基础上添加高斯噪声;所述步骤d仿真环境反馈即时奖励、环境和无人机下一状态,并将经验存入经验回放池,具体包括:智能体执行动作后与环境交互,环境反馈奖励r和下一个状态s′,此时将[s,a,s′,r,d]作为经验存入经验回放池,如果当前采样的数据量超过经验回放池存储规模,新经验将替代旧经验,即存入新经验并从经验回放池中删除旧经验,经验回放池样本实现了实时更新;所述步骤e中,从经验回放池提取经验块并周期性更新价值标签网络参数供价值网络学习,价值网络进行更新的数学表达式如下:Loss=MSECs,As,r+γ·CTs′,ATs′9式中,C表示价值网络,A表示动作网络,CT表示价值标签网络,AT表示动作标签网络,γ表示折扣率即考虑远期奖励的程度,r为环境反馈的即时奖励,CTs′,ATs′为历史经验的动作价值;γ的数学表达式如下所示: 动作网络进行更新的数学表达式如下:Loss=-Cs,As11式中,C表示价值网络,A表示动作网络;价值标签网络和动作标签网络将根据固定时间间隔复制价值网络和动作网络参数,价值标签网络和动作标签网络的意义是周期性地固定参数计算深度学习的标签。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区南山街道崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。