Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于人工势场和PPO的多智能体航路规划方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西南交通大学

摘要:本申请涉及基于人工势场和PPO的多智能体航路规划方法和装置,包括对智能体涉及算法的原始参数进行初始化处理;筛选出智能体待执行的下一个动作;使用人工势场函数获取智能体执行动作后的新的状态值;如果满足预设条件,则根据策略网络为智能体制定行动策略;如果未满足预设条件,则对经验库进行管理,根据管理后的经验库对策略网络进行训练,使用训练后的策略网络为智能体制定行动策略。通过使用非确定性策略的算法,克服人工势场的局部最优问题,跳出局部最优点,具有较强的环境适应性和鲁棒性;同时借助积极经验回放方法,加快强化学习方法在避障和路径规划过程中的收敛速度。

主权项:1.基于人工势场和PPO的多智能体航路规划方法,其特征在于,所述基于人工势场和PPO的多智能体航路规划方法,包括:对智能体涉及算法的原始参数进行初始化处理;获取所述智能体的当前状态值,并通过最小误差熵卡尔曼滤波方法对信息误差进行处理,筛选所述智能体待执行的下一个动作,包括:当仅存在单个所述智能体时,获取所述智能体的当前状态值,并通过最小误差熵卡尔曼滤波方法对信息误差进行处理,将所述当前状态值输入策略网络,获取所述策略网络输出的动作概率,根据人工势场函数计算奖励函数,基于所述动作概率选出所述智能体待执行的下一个动作;存在至少两个所述智能体时,获取每个所述智能体的当前状态值,将所述当前状态值传输至中央控制器,获取所述中央控制器基于合引力最小的目标分配机制进行计算后的目标分配结果,根据所述人工势场函数计算所述奖励函数,再由所述策略网络输出动作概率,从动作概率集合中选出所述智能体待执行的下一个动作,其中,所述目标为至少两个所述智能体需要到达的多个目标位置,存在多种目标分配机制,所述合引力为每种目标分配机制下的所有所述智能体受到的引力之和;使用人工势场函数和经过误差处理后的传感器数值,获取所述智能体执行所述下一个动作后的新的状态值;如果满足预设条件,则输出对应所述智能体的策略网络,根据所述策略网络为所述智能体制定行动策略;如果未满足预设条件,则基于包括当前状态值、所述新的状态值、所述原始参数在内的参数集合对经验库进行管理,根据管理后的所述经验库对所述策略网络进行训练,对训练后的所述策略网络和预先构建的评价网络进行更新,使用更新后的所述策略网络为所述智能体制定行动策略,包括:将包括所述当前状态值、所述新的状态值、所述原始参数在内的参数集合存储在经验库内;当所述经验库存满时,基于所述经验库内存储的数据构建目标函数,基于所述目标函数对所述策略网络进行训练;对所述经验库内的数据按奖励值由大到小的顺序进行排序,提取高奖励经验列表,对所述高奖励经验列表进行扩充,得到积极经验库,使用所述积极经验库对训练后的所述策略网络进行二次训练。

全文数据:

权利要求:

百度查询: 西南交通大学 基于人工势场和PPO的多智能体航路规划方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。