Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜中国科学技术大学阚震获国家专利权

恭喜中国科学技术大学阚震获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜中国科学技术大学申请的专利基于强化学习的机器人导航避障任务实现方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115356934B

龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211115446.X,技术领域涉及:G05B13/04;该发明授权基于强化学习的机器人导航避障任务实现方法及系统是由阚震;张晨琳;李智军设计研发完成,并于2022-09-14向国家知识产权局提交的专利申请。

基于强化学习的机器人导航避障任务实现方法及系统在说明书摘要公布了:本发明提供了一种基于强化学习的机器人导航避障任务实现方法及系统,包括:将导航任务建模为马尔可夫过程,为强化学习方法设计状态空间、动作空间及奖励函数,确定完成任务的指标;分析控制屏障函数的约束条件,调整参数,训练得到参数化的控制屏障函数;利用建模步骤中设计的状态空间、动作空间及奖励函数,并调整强化学习算法中的超参数,训练得到策略网络;根据学习到的控制屏障函数,修改策略网络的输出,同时收集数据,更新控制屏障函数;通过预测屏蔽控制,对危险动作施加噪声,使智能体偏离预定轨迹,使训练过程安全。本发明基于强化学习的框架,整合了可证明的有效控制屏障函数,以确保学习过程中的安全探索。

本发明授权基于强化学习的机器人导航避障任务实现方法及系统在权利要求书中公布了:1.一种基于强化学习的机器人导航避障任务实现方法,其特征在于,包括如下步骤:建模步骤:将导航任务建模为马尔可夫过程,为强化学习算法设计状态空间、动作空间及奖励函数,确定完成任务的指标;控制屏障函数训练步骤:分析控制屏障函数的约束条件,调整参数,训练得到参数化的控制屏障函数;策略网络训练步骤:利用建模步骤中设计的状态空间、动作空间及奖励函数,并调整强化学习算法中的超参数,训练得到策略网络;控制屏障函数更新步骤:根据学习到的控制屏障函数,修改策略网络的输出,同时收集数据,更新控制屏障函数;确保安全步骤:通过预测屏蔽控制,对危险动作施加噪声,使智能体偏离预定轨迹,使训练过程安全;在所述控制屏障函数训练步骤中,为了得到控制屏障函数,首先定义专家轨迹Pexp: 其中,∶=表示定义为;xi为智能体的状态,xi∈S;μi为智能体的动作信息;通过 其中,是n维实数空间;x表示n维状态;||·||p代表p范数;得到定义在xi周围半径为∈的p范式球B∈,pxi;通过 D∶=D′\bdD′得到区域D;其中,bdD′代表D′的边界;D和D′都是由点构成的区域;∪代表并;D′是N个范式球组成的并集;\代表除去;D是不包含D′边界的开集;定义明可夫斯基和为 其中,⊕表示明可夫斯基和;C1和C2是两个集合;通过 定义集合L,L表示D周围宽度为σ的层;Bσ,p0表示0周围半径为σ的p范式球;bdD表示D的边界;从L中采样得到数据集XL 定义安全状态集合XsafeXsafe={xi:xi,ui∈Pexp},其中,:表示从专家轨迹Pexp中的状态动作对xi,ui中提取出状态信息xi;定义安全集Xsafe的子集为 其中,inf表示取下限;超参数γsafe,γunsafe为正常数,Lh表示局部利普希茨界;局部利普希茨界Lhx定义为 其中,sup代表取上限,B∈,px表示x周围半径为∈的p范式球区域;hx表示控制屏障函数,hx1表示x1的控制屏障函数值;hx2表示x2的控制屏障函数值;在D上一个有效的控制屏障函数hx定义为:存在一个局部利普希茨连续拓展K类函数α使得下式在所有x∈D上成立; 其中,ux是智能体在状态为x时采取的动作;fx和gx分别代表非线性系统 的动力学模型;是偏导符号;为了保证得到的控制屏障函数的有效性,∈有约束条件;定义函数qx:qx:=Lfhx+Lghxui+αhx解以下优化问题得到所需控制屏障函数h:min||h|| hxi≤-γunsafe qxi,ui∶=Lfhxi+Lghxiui+αhxi≥γexp 其中,超参数γexp、Lh和Lq是正常数;hxi表示在xi时控制屏障函数值,是安全集的子集,Lip·,∈表示参数在∈邻域内的利普希茨常数上界,表示参数在邻域内的利普希茨常数上界;s.t.表示约束条件;对于所有xi∈XL,应满足对于所有xi∈Xsafe,∈应满足∈≤γexpLqxi;其中,Lhxi和Lqxi表示局部利普希茨界;此时, 其中,qxi表示当x=xi时,qx的函数值;在所述确保安全步骤中,预测性屏蔽控制,在危险情况下,屏蔽所学的控制屏障函数的输出,通过已知的系统动力学模型,预测随后的H步状态;如果没有安全约束被违反,则控制屏障函数选取的动作被执行;否则,随机高斯噪声将被添加到动作中,直到在有限步数H步内不发生碰撞。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230041 安徽省合肥市金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。