首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于DSAW离线强化学习算法的冗余驱动机械臂路径规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国矿业大学;溧阳二十八所系统装备有限公司

摘要:本发明公开了一种基于DSAW离线强化学习算法的冗余驱动机械臂路径规划方法,属于机械臂三维空间路径规划领域。针对三维空间内碰撞检测问题,通过包围法将路径节点与障碍物之间的碰撞关系简化为球体与长方体之间的碰撞关系,避免碰撞问题;针对强化学习路径规划环境的设计问题,从位置、碰撞约束、步长限制等多个方面设计了基础奖励函数、碰撞惩罚奖励函数、目标奖励函数来引导冗余驱动机械臂学习达到目标点的行为策略。然后采用模型预测控制算法对路径上的节点进行逆解计算,求出对应关节角度。其使用方便,计算效率高,保证了冗余驱动机械臂路径最优求解的关节移动角度。

主权项:1.一种基于DSAW离线强化学习算法的冗余驱动机械臂路径规划方法,其特征在于,包括如下步骤:步骤1:进行冗余驱动机械臂的强化学习路径规划的前期准备,全局地图初始化:在计算机中对冗余驱动机械臂移动场景进行环境建模并建立三维坐标系,采用包围法将冗余驱动机械臂移动场景环境中的所有障碍物简化为长方体和球体,以方便后续障碍物碰撞检测,防止出现碰撞问题;设障碍物数量为k,组成障碍物集合为{obji},简化为球体的障碍物包括球半径及球心坐标信息,简化为长方形的障碍物包括各方向轴上的最小坐标和最大坐标信息,即步骤2:在仿真模拟器CoppeliaSim中构建关于冗余驱动机械臂的强化学习路径规划环境,路径规划环境包括了强化学习状态空间、强化学习动作空间和强化学习的奖励函数,来引导冗余驱动机械臂学习达到目标点的行为策略;步骤2.1设计强化学习状态空间;依据路径规划的实际需求以及全局地图信息将状态空间设计为state={start,goal,current,distobstacle,distgoal,step},其中start=xinit,yinit,zinit表示路径规划环境中冗余驱动机械臂的起点位置,goal=xend,yend,zend表示终点位置,current=xcurrent,ycurrent,zcurrent表示当前节点位置,distobstacle表示当前节点与障碍物之间的距离,distgoal表示当前节点与终点之间的距离,step表示运行步数;步骤2.2:设计强化学习动作空间,定义冗余驱动机械臂所有可能执行的动作,其中最关键的动作涉及到寻找点位过程中的方向和步长,因此将动作空间设计为action={x,y,z,length},其中x,y,z表示方向向量,范围设计为-1,1,length表示冗余驱动机械臂单次移动的步长;步骤2.3:设计强化学习的奖励函数;奖励函数包括对冗余驱动机械臂正确行为的奖励、不理想行为的惩罚,以及引导冗余驱动机械臂避开障碍物实现在三维空间中进行路径规划逐步学习和优化的机制;步骤3:在强化学习路径规划环境中搭建离线强化学习数据集离线强化学习数据集包括训练过程中产生的历史交互记录、利用仿真模拟器中生成的数据以及人工涉及好的路径规划专家数据库;对数据集D进行必要的归一化预处理,以提高其可用性;步骤4:利用归一化预处理后的数据集对离线强化学习算法DSAW进行学习迭代,输出得到冗余驱动机械臂末端移动过程中的路径节点n0,n1,…,nn;步骤5:采用包围法设置冗余驱动机械臂关节和障碍物,将机械臂连杆简化为圆柱体,将障碍物简化为球体后计算机械臂关节和障碍物的距离,进行冗余驱动机械臂关节的避障检测,和防止碰撞测试;步骤6:建立冗余驱动机械臂模型预测控制算法MPC状态方程,对冗余驱动机械臂末端移动过程中的路径节点n0,n1,…,nn进行逆解角度计算,得到冗余驱动关节角度值,之后冗余驱动机械臂即可按照冗余驱动关节角度值移动,完成整个路径规划。

全文数据:

权利要求:

百度查询: 中国矿业大学 溧阳二十八所系统装备有限公司 基于DSAW离线强化学习算法的冗余驱动机械臂路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。