首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于聚类PPO算法的多移动机器人合作的路径规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京理工大学

摘要:本发明公开了基于聚类PPO算法的多移动机器人合作的路径规划方法,包括以下步骤:S1、收集所有目标的位置信息,对目标数据进行清洗和标准化处理;S2、利用K‑均值聚类算法进行目标节点分配;S3、利用PPO算法优化每个移动机器人的路径;S4、利用PPO算法更新策略网络,当策略网络稳定或者达到预设的迭代次数时,停止训练。本发明采用上述的基于聚类PPO算法的多移动机器人合作的路径规划方法,在保证求解效率的同时,找到接近最小最大化任务完成时间的解,这种结合了聚类算法和深度强化学习算法的方法为路径规划的求解提供了新的思路,对于提升仓储效率、降低运输成本具有重要的实际应用价值。

主权项:1.基于聚类PPO算法的多移动机器人合作的路径规划方法,其特征在于,包括以下步骤:S1、收集所有目标的位置信息,对目标数据进行清洗和标准化处理;S2、利用K-均值聚类算法进行目标节点分配;S3、利用PPO算法优化每个移动机器人的路径;S4、利用PPO算法更新策略网络,当策略网络稳定或者达到预设的迭代次数时,停止训练;步骤S2具体包括以下步骤:选择一定数量的移动机器人,设置移动机器人的索引S21、初始化聚类中心,利用K-均值聚类算法将目标节点分配给各移动机器人,并根据分配结果更新聚类中心,表示为:Ci=argminj∈{1,2,...,K}distancexi,yj其中,Ci是目标i被分配到的聚类中心的索引,xi是目标i的坐标,yj是聚类中心的坐标,distance是两点间的欧式距离;S22、更新聚类结果:根据每个移动机器人负责聚类内的所有数据点的平均位置,计算聚类中心,计算公式如下: 其中,Lj是聚类中心的坐标,Sj是分配给移动机器人的目标集合,|Sj|是集合Sj中节点的数量;分配矩阵U=[unm]是一个N×M的矩阵,其中unm表示第n个目标节点分配给第m个移动机器人的分配情况,分配函数表示为: S23、重复步骤S21和S22,当聚类内误差平方和收敛到阈值以下,或者达到预设的迭代次数时,停止更新,检查目标分配的均衡性;在步骤S3中,将移动机器人m的动作空间表示为Am、状态空间表示为Sm、奖励函数表示为rm,则移动机器人m在时间步t的动作空间表示为: 移动机器人m的状态空间表示为: 其中,Vm={n|unm=1即目标节点n被移动机器人m访问,m∈M},移动机器人m的奖励函数由当前时间步t所处的节点到下一个时间步节点t+1所处节点的距离和多次访问惩罚决定,定义πmt表示移动机器人的访问策略,则rm表示为:rm=-distanceπmt,πmt+1-λrcollisiont;移动机器人m的累计奖励函数Rm则表示为: 其中,distance表示两个节点之间的距离,λ为多次访问惩罚系数权重,rcollision为多次访问惩罚;步骤S4包括以下步骤:S41、利用近端优化裁剪限制策略梯度更新的幅度,将优势函数和重要性采样结合,则目标函数表示为: 其中,πθ表示当前使用的策略,表示旧策略,表示优势函数,∈是一个超参数,用于控制近端优化裁剪的强度;S42、利用PPO算法更新神经网络参数,初始化策略网络πθat|st和价值网络其中,θ和分别表示策略网络和价值网络的参数;通过梯度上升法更新策略网络的参数: 通过梯度下降法更新价值网络的参数: 进行多次迭代更新,直到移动机器人训练次数达到最大时停止训练,当移动机器人累积奖励收敛达到最大值时,此时学习到最优遍历节点路径策略。

全文数据:

权利要求:

百度查询: 南京理工大学 基于聚类PPO算法的多移动机器人合作的路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。