买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江工业大学
摘要:基于世界模型隐变量和强化学习的AGV路径规划方法和装置,其方法包括:对车间环境进行建模,生成起始点、目标点、AGV、静态障碍物及动态障碍物,并以栅格地图的方式对其进行像素点表示,将地图表示为图像的形式,获取初始时刻t0至tn的地图信息,作为世界模型学习网络dreamer的输入,生成离散世界模型;建立以结合障碍物分布和时间成本的奖励函数为基础的Actor‑Critic网络,以离散世界模型作为输入,Actor网络预测当前时刻t至后续t+15时刻的AGV动作,Critic网络根据奖励函数对动作进行奖惩;最后使用训练好后的动作网络对AGV进行路径规划。该方法可以减少AGV与环境的交互次数,减少训练的成本与时间,避免在真实环境下训练AGV可能出现的故障。
主权项:1.基于世界模型隐变量和强化学习的AGV路径规划方法,其特征在于,包括如下步骤:步骤1:使用栅格地图方法对车间环境进行建模,车间环境包括可通行区域、AGV、起始点、目标点、静态障碍物与动态障碍物;环境地图可以表示为图像I,设当前时刻t下的图像为It,作为环境重建神经网络的输入图像It包括环境信息与AGV状态信息;步骤2:根据步骤1中的环境信息,以包含环境信息的图像It作为输入,构建以随机性隐变量zt和确定性隐变量ht为基础组成的模型重建神经网络;zt与ht表示环境模型的细节特征,由输入图像It经过卷积神经网络学习得到,再对zt与ht进行反卷积解码得到重建后的图像作为后续步骤3路径规划网络Actor-Critic的输入;构建损失函数计算重建图像的损失,判断是否进入下一回合训练;步骤3:根据步骤2中构建的模型重建神经网络输出的重建图像作为输入,得到随机性隐变量zt′和确定性隐变量ht′,在保证路径合理规划前提下构建考虑障碍物分布与时间成本的路径规划网络Actor-Critic。路径规划网络由Actor动作决策网络和Critic奖励评估网络组成;为了学习模型环境潜在空间的行为,Actor动作网络会预测当前时刻t至后续t+α时刻α为超参数,一般取15的未来一系列动作;Critic以Actor网络输出的动作作为输入,预测未来奖励的预期总和,并使用时间差分误差算法计算预测奖励与实际奖励之间的损失,将损失回传Actor网络,对Actor网络进行训练,得到训练好的Actor网络,使其能够输出最大奖励的动作序列;使用训练好后的Actor网络来进行AGV路径规划,即基于世界模型隐变量和强化学习的AGV路径规划。
全文数据:
权利要求:
百度查询: 浙江工业大学 基于世界模型隐变量和强化学习的AGV路径规划方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。