首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于视觉感知的强化学习双层决策AGV避障方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东科技大学

摘要:本发明公开了一种基于视觉感知的强化学习双层决策AGV避障方法,其步骤为:构建AGV动态和静态障碍物模型并进行仿真环境建模;设计强化学习算法的环境状态输入,设计双层决策模型,双层决策模型包括主决策层和副决策层,主决策层采用DDPG算法,副决策层采用DQN算法,输出动作;设计强化学习奖励值函数,对双层决策模型初始化,双层决策模型下持续训练AGV避障能力。本发明在激光雷达全局感知环境的基础上设计的相机检测系统,能够在多传感器优势互补的基础上,避免多传感器数据融合带来的麻烦。双层决策模型在提高决策结果的准确度和可信度的同时优化了经验样本,提高了AGV的训练速度和避障能力。

主权项:1.一种基于视觉感知的强化学习双层决策AGV避障方法,其特征在于,包括以下步骤:步骤1、构建AGV动态和静态障碍物模型并进行仿真环境建模;步骤2、设计强化学习算法的环境状态输入,在激光雷达扫描的基础上设计相机检测系统并拟合扰动因子作为状态输入之一;步骤3、设计双层决策模型,双层决策模型包括主决策层和副决策层,主决策层采用DDPG算法,副决策层采用DQN算法,主决策层和副决策层分别对动作av,θ和aθ进行决策控制,将主决策层和副决策层的决策输出做判断融合,作为最终动作步骤4、设计强化学习奖励值函数,通过不同状态设置对应奖励值函数引导AGV远离障碍物并以最优路径到达目标点;步骤5、对双层决策模型初始化,即初始化双层决策模型下DDPG和DQN内部网络及其权重参数以及初始化经验池;步骤6,双层决策模型下持续训练AGV避障能力;所述步骤3包括以下子步骤:步骤3.1、根据强化学习算法构建双层决策模型,将动作a分解为线速度v∈-1,1和转角θ∈-90,90,主决策层对动作av,θ进行决策输出,副决策层对aθ进行决策控制;步骤3.2、针对于副决策层,对连续性的角度θ离散化为固定角速度ω,其映射关系如下: 步骤3.3、基于步骤3.1和步骤3.2,主决策层输出决策结果为av,θ,副决策层输出决策结果为a′ω,对此需将角速度值ω反向转换得到对应角度区间θ′,表达式为: 判断主决策层的结果θ与副决策层的结果θ′所在区间关系并输出定义为: 其中,τ1和τ2为双层决策系数,τ11,0τ21。

全文数据:

权利要求:

百度查询: 山东科技大学 一种基于视觉感知的强化学习双层决策AGV避障方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。