首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于注意力机制和非合理动作抑制的机械臂自主抓取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州电子科技大学

摘要:本发明涉及基于注意力机制和非合理动作抑制的机械臂自主抓取方法。采用深度强化学习方法通过奖励函数指导智能体进行物体的自主抓取技能的学习。利用注意力机制使得网络在试错中持续关注能够提升抓取成功率的抓取位置区域;设计的非合理动作抑制策略,能够有效解决强化学习方法从仿真迁移到真实环境中存在状态差异的问题。本发明具有很高的环境适应性和抓取成功率,能够在复杂环境下实现对物体的高效自主抓取。

主权项:1.基于注意力机制和非合理动作抑制的机械臂自主抓取方法,其特征在于,该方法的具体步骤是:步骤1:利用RGB-D相机采集目标区域的深度图Idepth和彩色图Icolor,尺寸为H×W,将彩色图Icolor和深度图Idepth以ΔΘ为旋转间隔逆时针旋转d次,得到d组具有不同旋转方向的彩色图和深度图记为状态st,其中t表示当前时刻;步骤2:构建深度强化学习网络,网络由特征提取层、注意力机制层、上采样层和非合理动作抑制层组成;a特征提取层:将d组彩色图和深度图输入网络,对每一组进行特征提取;以第di组为例,和各自通过一个经过ImageNet预训练的ResNet-50网络的卷积层部分进行特征提取操作得到颜色特征图和深度特征图b注意力机制层:将颜色和深度特征图进行通道拼接操作得到融合特征图然后将经过一个注意力机制模块,让网络持续关注杂乱物体中较好的抓取位置区域,得到注意力机制的操作步骤如下: 注意力机制模块中首先将特征图沿着空间维度进行全局平均池化操作得到将通过一个全连接层L1和RectifiedLinearUnit激活层,对每个通道的特征信息进行特征融合;接着再经过一个全连接层L2和Sigmod激活层得到注意力机制模块的权重的维度与输入特征图通道维度一致;将和进行乘法操作得到最终的输出其中AvgPool·表示空间全局平均池化操作,L1·和L2·表示全连接层,σ·表示RectifiedLinearUnit激活层,Sigmod·表示Sigmod激活层,bn·表示BatchNormalization操作;c上采样层:将注意力特征图经过一个卷积核大小为1×1的卷积层、BatchNormalization层和RectifiedLinearUnit激活层得到特征图实现通道降维;然后,将特征图进行顺时针旋转,使其回到与彩色图Icolor一样的角度方向,再进行上采样操作得到尺寸为H×W的上采样图d组颜色状态图和深度状态图获得d组上采样图进行通道拼接操作得到d维尺寸为H×W的像素级别的动作预测Qst,a;θ;其中,θ为网络参数,a表示抓取动作的动作空间,该动作空间由机械臂的执行位置xw,yw,zw和夹爪旋转角度Θ组成;d非合理动作抑制层:根据Qst,a;θ得到每个通道维度下的最大动作预测值,即最佳抓取位置xw,yw,zw和夹爪旋转角度Θ,共获得d维最佳动作预测;在每个维度中,沿着各自的最佳动作方向,经过不同的偏移后,得到不同掩码区域k表示不同的掩码区域,d表示维度;具体的,掩码区域是以该维度下的最佳抓取位置沿着抓取方向偏移不同像素后的像素点为中心,尺寸为hg,wg的长方形区域;掩码区域的长边wg与抓取方向垂直; 表示在掩码区域内属于物体区域的概率,对同一个动作方向不同偏移值下的进行求均值操作得到该动作方向上最终的概率Pd; 其中,K表示每个动作方向上的掩码区域数量;Pd越小表示成功抓取物体的概率越大,碰撞的概率越小;因此,非合理动作抑制策略πst为:πst=1-Pd6将d维的非合理动作抑制策略πst与d维的最大动作预测值Qst,a;θ进行通道相乘操作,最终获得时刻t下的最佳动作at;步骤3:设计奖励函数,训练强化学习网络;①奖励函数设计:抓取奖励rg定义如下:rg=G-λΔΨ7ΔΨ=|ΕΘ-ΟΘ|∈[0°,90°]8其中,G表示抓取的结果,如果抓取成功G=1.5,如果抓取失败G=0;ΔΨ表示抓取角度的偏差,由夹爪实际旋转角度ΕΘ与该物体实际角度ΟΘ的绝对差计算得到,λ表示该角度偏差对于抓取奖励的影响程度;②采用时间差分的双重Q学习更新方式对网络进行训练;在时间t,采集机械臂工作区间的RGB-D图像得到状态st,将st输入当前网络得到最佳执行动作atxw,yw,zw,Θ;执行该动作at后,再次采集RGB-D图像得到下一个状态st+1,根据物体是否抓取成功,给动作at的一个奖励rg;采用时间差分法来最小化当前状态下执行动作的动作预测值Qst,at;θ与带有未来期望奖励的目标值之间的时间差分误差;该目标值yt采用双重Q学习方法定义: 其中,参数θtarget表示动作价值目标网络,该参数来自于Δt时刻前的网络参数;γ表示衰减因子;步骤4:完成步骤3的训练后,将训练好的网络参数直接从仿真环境迁移到真实环境中,通过相机对机械臂工作区间环境进行图像采集,进而得到状态st;将状态st输入网络得到最佳执行动作atxw,yw,zw,Θ,通过ROSMoveIt运动规划库对机械臂抓取的路径进行规划与控制。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 基于注意力机制和非合理动作抑制的机械臂自主抓取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。