Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜南京理工大学郭健获国家专利权

恭喜南京理工大学郭健获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜南京理工大学申请的专利一种基于深度强化学习的连续体机械臂运动控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116038691B

龙图腾网通过国家知识产权局官网在2025-03-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211573864.3,技术领域涉及:B25J9/16;该发明授权一种基于深度强化学习的连续体机械臂运动控制方法是由郭健;徐胜元;马国梁;马倩;惠玉卓;李志广;苗力设计研发完成,并于2022-12-08向国家知识产权局提交的专利申请。

一种基于深度强化学习的连续体机械臂运动控制方法在说明书摘要公布了:本发明公开了一种基于深度强化学习的连续体机械臂运动控制方法,将深度强化学习DDPG算法应用到连续体机械臂运动控制中,通过使机械臂在与环境不断交互中训练控制策略。本发明通过构建连续体机械臂虚拟训练环境、建立DDPG算法模型、构造奖励函数计算模型、积累经验回放池、训练深度强化学习网络及将训练好的模型部署到实际机械臂系统,实现连续体机械臂的自主运动控制。本发明中的DDPG算法采用确定性策略,网络收敛性好,通过使用目标网络降低过高的Q估计值,并加入随机动作噪声,有利于探索最优策略;训练时采用优先级经验回放,能加快训练速度和提升训练效果;并通过域随机化方法,减小训练环境与真实环境的偏差,提高模型部署的成功率。

本发明授权一种基于深度强化学习的连续体机械臂运动控制方法在权利要求书中公布了:1.一种基于深度强化学习的连续体机械臂运动控制方法,其特征在于,所述方法包括以下步骤:步骤1,构建连续体机械臂虚拟训练环境;步骤2,建立深度强化学习DDPG算法模型;具体包括:步骤2.1,建立DDPG算法神经网络:包括主网络和目标网络,其中主网络包括Actor网络和Critic网络,目标网络包括TargetActor网络和TargetCritic网络,主网络和目标网络具有相同的网络结构,仅网络参数不同;Actor网络采用确定性策略,给定输入状态,输出一个确定的动作信息,表示为πs;θ,其中s为机械臂观测状态,θ为Actor网络参数;Critic网络为评价网络,用于计算Q值,以评价Actor网络所采用策略的好坏,表示为Qs,a;w,其中a为Actor网络输出的动作信息,w为Critic网络参数;目标网络用于计算目标Q值,以辅助更新主网络参数,TargetActor和TargetCritic两个网络表示为πs;θ-和Qs,a;w-,其中θ-和w-分别为TargetActor网络和TargetCritic网络参数;随机初始化Actor网络的参数θ=θ0和Critic网络参数w=w0,并初始化TargetActor网络的参数为θ-=θ和TargetCritic网络的参数为w-=w;步骤2.2,建立经验回放池:经验池中存放的数据形式为五元组st,at,rt,st+1,δt,其中st表示t时刻的观测状态,at表示状态st输入下得到的动作输出,rt表示执行动作at得到的奖励值,st+1表示执行动作at后得到的下一时刻状态;δt为时间差分误差,用于确定经验回放优先级;若经验池容量大小为C,观测状态维度为dims,动作信息维度为dima,则用一个C行D列的二维矩阵进行存储,其中D=2·dims+dima+1+1,两个数字1代表rt和δt各占一个存储空间;并初始化二维矩阵的各元素为0;步骤3,构造奖励函数计算模型;奖励函数的计算遵循以下规则:规则1:若机械臂运行超出工作空间,则给予惩罚-10;规则2:奖励值与机械臂末端到目标位置距离有关,新的末端位置相对于上一时刻末端位置越接近目标位置,则奖励值越大;规则3:若末端位置到目标位置距离小于设定值dmin,则认为末端已经到达目标位置,给予奖励+10;根据以上规则,奖励值rt的计算过程如下:若机械臂末端在时刻t的初始位置为x0t,y0t,z0t,目标位置为x1t,y1t,z1t,机械臂根据当前输入状态st执行动作at后更新得到新的末端位置为x0t+1,y0t+1,z0t+1,则奖励函数如式1所示: 步骤4,积累经验回放池;具体包括:步骤4.1,观测当前虚拟机械臂状态st,输入到Actor网络得到动作输出在积累经验回放池时,在动作的基础上添加随机噪声作为实际动作,即其中Nt为均值为0、方差为σ2的高斯随机噪声;步骤4.2,虚拟环境机械臂执行动作at,更新机械臂状态得到下一时刻观测状态st+1,并计算得到奖励值rt;步骤4.3,将状态st和动作at输入到Critic网络中得到Q估计值为Qeval=Qst,at;w,将状态st+1输入到TargetActor网络中得到该网络下一时刻动作输出a′t+1=πst+1;θ-,再将状态st+1和动作a′t+1输入到TargetCritic网络中得到Qst+1,a′t+1;w-,进一步可得到Q目标值为Qtarget=rt+γ·Qst+1,a′t+1;w-,其中γ为折扣因子,则按式2计算时间差分误差:δt=Qeval-Qtarget=Qst,at;w-rt+γ·Qst+1,at+1;w-2步骤4.4,将五元组st,at,rt,st+1,δt存储至经验回放池;步骤4.5,将下一时刻状态st+1作为机械臂当前观测状态st,重复执行步骤4.1~步骤4.4;步骤4.6,重复执行步骤4.5直至经验回放池满;步骤5,进行深度强化学习网络一阶段训练;步骤6,虚拟环境域随机化;步骤7,进行深度强化学习网络二阶段训练;步骤8,将训练好的深度强化学习模型部署到实际机械臂系统。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京理工大学,其通讯地址为:210094 江苏省南京市玄武区孝陵卫200号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。