首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于单应性和Q学习的无标定视觉伺服控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:天津航天机电设备研究所

摘要:本发明提供了一种基于单应性和Q学习的无标定视觉伺服控制方法,包括如下步骤:S1、建立单目视觉伺服系统的运动学模型,用以得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;S2、基于中央透视原理,建立单应性任务模型,设计相应的单应性任务函数;S3、利用Q学习算法选择最优的单应性任务模型的增益系数。本发明所述的基于单应性和Q学习的无标定视觉伺服控制方法与传统方法相比,在特征点较多的情况下,利用单应性任务函数设计,使雅可比矩阵的计算复杂度降低,收敛速度变快。利用Q学习方法进行增益的参数自适应调优,增快了视觉伺服任务的收敛速度。

主权项:1.一种基于单应性和Q学习的无标定视觉伺服控制方法,其特征在于,包括如下步骤:S1、建立单目视觉伺服系统的运动学模型,用以得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;S2、基于中央透视原理,建立单应性任务模型,设计相应的单应性任务函数;S3、利用Q学习算法选择最优的单应性任务模型的增益系数;步骤S1的具体方法如下:设当前相机平面坐标系为{F}、期望相机平面坐标系为{F*}、特征点为Pi,特征点Pi在{F}和{F*}下的欧几里得坐标分别为Xi=[Xi,Yi,Zi]T和Xi和的关系为: 其中,R表示{F*}相对于{F}的旋转,t表示{F*}相对于{F}的平移;将Pi的坐标在{F}和{F*}坐标系下进行归一化处理,定义 其中,mi为{Fi*}坐标系下的归一化坐标,为{F*}坐标系下的归一化坐标;当特征点Pi投影到当前图像平面和期望图像平面时,其像素坐标pi,分别为: 其中,K为增益矩阵;步骤S2的具体方法为:设n*为平面π的法向量,且满足结合中央透射投影原理,得到 归一化坐标的欧几里得单应性矩阵为: 其中,H为归一化坐标的欧几里得单应性矩阵,cR*表示{F*}相对于{F}的旋转,t表示{F*}相对于{F}的平移,n*表示在{F*}坐标系下的平面π的法向量;定义深度比为: 得到, 定义投影单应性矩阵为:G=KHK-1由于单目视觉伺服系统的任务目标是使两个坐标系{F}和{F*}重合,即R=I且t=0,其中,I表示单位矩阵,可得:H=I;即G=I因此,等价于R=I和t=0,令 其中,β是任意的比例系数,表示两组图像之间的映射比例关系,选择使定义矩阵函数: 则误差任务函数为:E=[E1E2E3]T对式E进行求导,得如下关系: 其中,代表旋转矩阵和角速度之间的关系,即 的计算公式为: 其中,v表示相机的平移速度,w表示相机的角速度;推导可得 对上述公式进行变换: 得到将e的导数与相机速度相关联的表达式为: 其中,Lec是雅克比矩阵,Vc是相机的空间速度;计算得到针对静止目标的视觉伺服控制器的控制算法为: 其中,λ为增益系数;步骤S3的具体方法如下:单应性任务模型的增益系数λ=diag{λvx,λvy,λvz,λωx,λωy,λωz}∈R6×6,包括六个维度的伺服增益的智能体Avx,Avy,Avz,Aωx,Aωy,Aωz;由视觉伺服控制器的控制算法可知,伺服增益λ与图像雅可比矩阵和特征误差有关;此外,即使存在许多特征点时,的维数是固定不变的,因此选择作为状态空间;六个智能体的状态空间为: 其中,SvxSvySvzSwxSwySwz为六个自由度下的状态空间集;每个维度的智能体的状态空间均采用对数划分的方法,但是上下限是不同的,上下限根据具体情况决定;六个状态空间Sjj=1,…,6的上限和下限通过环境获得;正区间分为n个区间段,则每个区间段为负区间分为n个区间段,则每个区间段为对数分区方法如下: 还包括建立增益动作集,方法如下:选取m个增益作为动作集a={ai|i=1,…,m},利用ε-贪心算法从动作集中选择一个动作ai,当随机概率小于ε时,从动作集合中随机选择增益ai,如果随机概率大于ε,则选择与Qs,a最大值对应的动作,选择ε=μn作为探索概率,其中n是训练次数,μ是0到1之间的常数;步骤S3中,Q学习算法的奖励函数的设计方法如下:确定奖励函数的值的取决条件,取决条件包括特征点到达期望位置、特征点离开视野范围以及特征点接近期望位置;1如果与特征点相对应的误差范数的总和小于给定的阈值,则判断已到达所需位置,并且奖励值是最大值R;2如果特征点在选择不良动作后产生了不良轨迹并离开了视野,则给出最差的奖励值-R以避免选择该动作;3当特征点接近期望位置时,为了减小误差,使特征越接近期望位置时其奖励值越大;奖励值随着特征接近目标的距离而改变,并且与特征点的误差有关;奖励函数的公式如下: 其中,R是最大奖励值,是一个正常数;row是像平面的高度,col是像平面的宽度;σ是特征点的数量;步骤S3中,Q学习算法的更新函数为: 其中,其中,Qt+1st,at为t+1时刻下,状态st执行动作at后的更新Q值,Qtst,at为t时刻下,状态st执行动作at后的累积Q值,α为学习率,r为即时回报,γ为折扣率,Qtst+1,at+1为t时刻下,预测下一时刻的Q值。

全文数据:

权利要求:

百度查询: 天津航天机电设备研究所 一种基于单应性和Q学习的无标定视觉伺服控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。