首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度强化学习的多智能体的避险逃生方法及装置_江南大学_202310536736.X 

申请/专利权人:江南大学

申请日:2023-05-12

公开(公告)日:2024-05-24

公开(公告)号:CN116755329B

主分类号:G05B13/04

分类号:G05B13/04

优先权:

专利状态码:有效-授权

法律状态:2024.05.24#授权;2023.10.03#实质审查的生效;2023.09.15#公开

摘要:本发明公开了一种基于深度强化学习的多智能体的避险逃生方法及装置,方法包括:进行智能体运动转换计算;初始化智能体状态空间和动作空间;设置强化学习奖励函数,设置训练神经网络,设置并行训练算法;使用近端策略优化算法,并且运用MPI并行训练模块对智能体进行并行训练;本发明解决了分布式框架中多个智能体避险逃生的问题,构建了仓库的模拟环境并且进行强化学习训练;面对突发情况时,使空间内智能体同时考虑避免障碍物、保持速度、保证安全和快速避险逃生等多个目标,并且做出最优决策;具有部署灵活、可适应性强、避障逃生效果更好以及控制系统的强鲁棒性等优点。

主权项:1.一种基于深度强化学习的多智能体的避险逃生方法,其特征在于,包括:进行智能体运动转换计算;初始化智能体状态空间和动作空间;设置强化学习奖励函数,设置训练神经网络,设置并行训练算法;使用近端策略优化算法ppo,并且运用MPI并行训练模块对智能体进行并行训练;所述设置强化学习奖励函数包括:奖励函数由五个不同的奖励函数组合获得,设置如下:R=Rg+Rc+Rt+Rω+Rv向远离目标位置的方向移动将给予惩罚,而向接近目标位置的方向移动将给予奖励;若智能体到达了目标位置,则得到奖励H;在向目标位置移动时,若到目标的距离比之前短,也会得到奖励,表示为: 其中,dispre表示智能体之前成功到达目标点的移动距离,discurr表示智能体当前到达目标点的移动距离;当与障碍物发生碰撞时,Rc会施加惩罚P;表示为: 对于突发的紧急情况,智能体需要在最短的时间内进行逃生,因此每一步都会施加惩罚分数,以激励智能体做出正确快速的路径选择,t表示时间步长,表示为:Rt=-0.001tRω对超过阈值的旋转速度施加惩罚,以防止出现因惯性而导致的难以控制的问题,表示为: Rv对智能体的前进速度进行限制,以防止速度过快导致的惯性难以控制的问题,表示为: 使用奖励函数对智能体进行训练,每一轮训练的刷新条件由三种情况构成:智能体到达目标位置;智能体与障碍物发生碰撞;智能体时间步长超过设置的最大值;所述设置训练神经网络包括:设计一个拥有4个隐藏层的神经网络来近似非线性函数,前三个隐藏层用来处理距离测量值,第一个隐藏层对32个一维滤波器进行卷积,覆盖三个输入扫描,并应用ReLU非线性函数;第二个隐藏层对32个一维滤波器进行卷积,同样采用ReLU非线性函数;第三个隐藏层是一个具有256个矫正单元的全连接层,第三层的输出与另外两个输入连接,输出的信息与机器人到目标位置的相对距离x,y以及智能体的速度v,ω一起通过一个全连接层;最后,输出一个高斯分布Nvtmeans,vtlogstd,其中vtmeans是速度的平均值,vtlogstd是一组单独的参数,指的是高斯分布中的对数标准差;为了确保智能体的探索性,智能体最终的行为将从Nvtmeans,vtlogstd中进行采样;所述使用近端策略优化算法ppo,并且运用MPI并行训练模块对智能体进行并行训练包括:用集中式学习,分布式执行的范式,其中学习的策略是通过场景下所有智能体收集到的数据进行学习;训练过程中,在MPI并行执行策略进行数据采样和使用采样数据更新策略之间交替进行。

全文数据:

权利要求:

百度查询: 江南大学 一种基于深度强化学习的多智能体的避险逃生方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术