首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于FO-DDPG算法的机械臂抓取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:长春理工大学

摘要:本发明属于机械臂控制抓取技术领域,尤其为一种基于FO‑DDPG的机械臂抓取方法。本发明通过引入分数阶控制理论来选择机械臂的动作,引入分数阶折扣因子来计算分数阶回报,以更好地处理长期奖励的衰减。本发明能够更准确地建模和处理复杂的非线性、非局部和长时依赖的动态系统;提高值函数的估计准确性,以更好地指导机械臂的抓取决策;增强策略函数的决策质量和鲁棒性,通过更精确地利用过去的经验;增加算法的性能和稳定性,提高机械臂在抓取任务中的成功率和效率,使机械臂能够在不同环境和物体特征下成功进行抓取操作。

主权项:1.一种基于FO-DDPG的机械臂抓取方法,其特征在于:包括以下步骤:S1.确定目标和环境:定义机械臂抓取任务的具体目标,例如抓取特定形状的物体或将物体放置在特定位置,确定机械臂的物理环境,包括机械臂的结构、传感器配置和可执行的抓取动作;S2.构建分数阶DDPG网络结构:设计并实现Actor网络和Critic网络的结构,其中Actor网络用于学习抓取策略,Critic网络用于估计动作价值,使用分数阶微积分方法对值函数网络和策略网络进行优化,以捕捉状态空间中的长期依赖关系;S3.数据采集和预处理:在环境中随机执行抓取动作,并记录机械臂的观测值、抓取动作和奖励信号,对观测值和奖励信号进行预处理,如归一化、降噪等,以提高训练效果和稳定性;S4.经验回放缓冲区:构建经验回放缓冲区,用于存储机械臂执行的抓取动作和观测信息,在每个训练步骤中,从经验回放缓冲区中随机选择一批样本,以增加样本的多样性并减少训练过程中的样本相关性;S5.分数阶DDPG训练过程:根据分数阶DDPG算法的更新规则,反复进行训练迭代,在每个迭代中,根据观测值从Actor网络中选择抓取动作,并使用Critic网络估计动作的价值,计算目标价值函数和损失函数,并使用梯度下降法更新Actor网络和Critic网络的参数;S6.策略评估和优化:在训练过程中,周期性地对机械臂抓取策略进行评估,以评估抓取性能和鲁棒性,根据评估结果,对网络参数进行调整和优化,以提高抓取策略的质量和稳定性;S7.抓取任务执行:使用训练好的策略网络,将机械臂部署到实际的抓取任务中,通过实时观测环境和目标物体的状态,根据策略网络输出的抓取动作执行抓取任务。

全文数据:

权利要求:

百度查询: 长春理工大学 一种基于FO-DDPG算法的机械臂抓取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。