首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的多AUV协同移动光通信方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东科技大学

摘要:本发明公开了一种基于深度强化学习的多AUV协同移动光通信方法,属于水下监测高速光通信技术领域,包括如下步骤:在不同深度区域部署多个自主水下航行器,并通过水下光通信建立初始实时的高速光通信传输链路;目标区域中部署的自主水下航行器接收初始观测状态;底层自主水下航行器从初始位置出发,追踪水下的移动目标;上层自主水下航行器预测下层自主水下航行器的位置;多个自主水下航行器根据惯性导航系统调整自身速度,实现水下实时监测数据高速光通信传输。本发明基于深度强化学习方法的多自主水下航行器协同移动光通信方法能够可靠快速地传输数据,可以适用于多个自主水下航行器等复杂环境下的水下高速数据传输需求。

主权项:1.一种基于深度强化学习的多AUV协同移动光通信方法,其特征在于:具体包括如下步骤:步骤1:在不同深度区域部署多个AUV,并通过水下光通信建立实时的高速光通信传输链路;步骤2:目标区域中部署的AUV将接收的初始观测状态输入AUV协同移动控制系统中,AUV协同移动控制系统做出动作决策,选择具体的动作;步骤3:下层AUV从初始位置出发追踪水下的移动目标;上层AUV则预测下层AUV的位置,同时,AUV协同移动控制系统选择具体的动作后,根据自身的位置信息与接收信号强度传感器检测到的光强数据作为上层AUV下一步速度调整的依据;步骤4:下层AUV在执行移动动作的同时向上发送光通信数据信号;当上层AUV检测到的来自下层的光信号后,对其进行解码并完成向上转发光信号,从而实现多个AUV之间的光通信数据传输;AUV协同移动控制系统实时判断多个AUV之间是否满足预定义的最小误码率,若不满足,则光通信传输失败,AUV将更新自身位置,并重新执行步骤2;否则,重复执行步骤3-步骤4,以保证连续的数据收集,AUV根据惯性导航系统调整自身速度,将海底数据通过光通信传输到海面,直到完成对监测区域的实时数据收集任务;步骤2中,AUV协同移动控制系统采用基于深度确定性策略梯度的强化学习算法进行动作决策,具体的决策过程为:对于每个AUV,AUV协同移动控制系统根据当前策略μ和噪声来选择一个动作at,使得对应的Qst,at值最大化;即其中Q代表Critic网络,μ代表Actor网络,st表示当前时间步下的状态,at表示在当前状态下应采取的动作,θμ是Actor网络参数,θQ是Critic网络参数,argmax则代表选取让Q值最大的动作;在训练阶段,输出的动作at会在最优动作的基础上添加一个服从正态分布的探索噪音即其中,表示正态分布,σ2表示方差;AUV协同移动控制系统依据当前策略及探索噪声从动作集a中选择一个动作,选择的动作是在t时刻AUV调整速度的所有可能选项之一;设当前策略网络输出的最优动作为ag,动作集表示为a={ut,rt|st},ut表示当前t时刻AUV移动中的航行速度,rt表示当前t时刻AUV移动中的偏航角速度;ut∈[-umax,umax],rt∈[-rmax,rmax],ut+1表示下一时刻AUV移动中的航行速度,rt+1表示下一时刻AUV移动中的偏航角速度,umax表示AUV移动中所能控制的最大航行速度;rmax表示AUV移动中所能控制的最大偏航角速度;步骤3中,AUV协同移动控制系统采用扩展卡尔曼滤波算法对自身位置信息进行预测,具体的预测过程为:AUV协同移动控制系统中上层的AUV采用光学传感器的测量值作为观测值,通过一个状态估计器来预测下层AUV的位置;首先定义了状态转移和观测模型以及用于处理非线性问题的雅可比矩阵;AUV的状态被定义为X=[xl,yl,ψl]T,是关于下层AUV的位置和方向的信息;在离散时域上的状态传递函数表示为: 其中,ω为过程噪声,服从均值为零且协方差为Q的高斯分布;和为上层AUV在t时刻的航行速度和偏航角速度;ts为采样时间;因此,该模型的线性化状态转换矩阵能够写成将在不同位置监测的两个独立的光强测量作为观测,t时刻的观测关系Zt表示为: 其中,vt是观测噪声,服从均值为零且协方差为R的高斯分布;线性化观测矩阵JH是函数h的雅可比矩阵,能够写成使用标准的EKF工具来估计近似的相对位置,经过多轮预测和更新得到下层AUV的预测位置;步骤3中,AUV上安装有惯性导航系统,根据该惯性导航系统控制AUV的速度从而移动,AUV下一时刻移动位置表示为: 其中,cos表示三角函数中的余弦,sin表示三角函数中的正弦,xt、yt分别表示X、Y轴上的位置向量,ψt表示方向向量,其中,ut、vt和rt分别表示航行速度、摇摆速度和偏航角速度,t是惯性导航传感器的采样周期;AUV在选择具体动作后,调整相应的速度,并更新状态信息。

全文数据:

权利要求:

百度查询: 山东科技大学 一种基于深度强化学习的多AUV协同移动光通信方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。