Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 天津大学郝建业获国家专利权

天津大学郝建业获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉天津大学申请的专利基于内在动机的多智能体稀疏奖励环境协作探索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114169421B

龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111455606.0,技术领域涉及:G06N3/006;该发明授权基于内在动机的多智能体稀疏奖励环境协作探索方法是由郝建业;郑岩;谢京达;马亿;杨天培设计研发完成,并于2021-12-01向国家知识产权局提交的专利申请。

基于内在动机的多智能体稀疏奖励环境协作探索方法在说明书摘要公布了:本发明公开了一种基于内在动机的多智能体稀疏奖励环境协作探索方法,步骤1、初始化目标策略和探索策略;步骤2、构建人工势场函数,通过在环境中构建一个人工势场,引导探索策略在环境中根据人工势场中的势能进行探索,对于未探索充分区域加强探索,从而得到成功的经验,引导目标策略进行学习;步骤3、进行势能影响的分配;步骤4、利用人工势场影响更新探索策略,即利用经过信度分配的人工势场强度影响引导探索策略进行探索,加快对环境空间的探索,利用成功经验信号引导目标策略学习。与现有技术相比,本发明对稀疏奖励环境下智能体的探索效率有较高的提升,可以与多种强化学习算法进行结合。

本发明授权基于内在动机的多智能体稀疏奖励环境协作探索方法在权利要求书中公布了:1.一种基于内在动机的多智能体稀疏奖励环境协作机器人路径探索方法,其特征在于,该方法具体包括以下步骤: 步骤1、初始化目标策略该策略用于学习完成目标任务;同时初始化探索策略该策略用于在环境中进行充分探索;其中,n为智能体数量; 步骤2、构建机器人路径规划人工势场函数,通过在环境中构建一个人工势场,引导探索策略在环境中根据人工势场中的势能进行探索,对于未探索充分区域加强探索,从而得到成功的经验,引导目标策略进行学习;具体的,得到构型空间为一个有起伏地形的区域,其中,起点和障碍物点位于高的区域,终点位于低的区域,机器人视作一个球体,那么机器人会在重力的作用下沿着某条轨迹从高的起点滑落到低的终点并避开障碍物;所述步骤2进一步包括以下处理: 步骤2.1、进行探索充分性度量,具体处理如下: 将协作式多智能体探索任务建模为分布式局部观测的马尔可夫决策过程Dec-POMDP,如下式所示: S,U,P,r,O,Z,n,γ 其中,S表示智能体的全局状态集合,U表示智能体的联合动作集合,P表示转移函数,r为全局奖励函数,O表示智能体的局部观测集合,Z表示初始全局状态分布,n表示智能体数量,γ表示强化学习中的奖赏折扣因子; 用计数器CounterCSt,ut表示在整个训练过程中多智能体系统在联合状态为St下采取联合动作为ut的次数; 步骤2.2、距离测算网络训练 在多智能体环境中,通过一个距离测算网络来衡量两个状态之间的距离,距离测算网络输入为全局状态St和联合动作ut,输出为一个值,用于衡量两个状态之间的距离;距离测算公式如下: dis=||fst+1,ut+1-fst,ut||2其中,f表示拟合函数,dis表示两个状态之间的距离; 步骤2.3、构建人工势场,具体处理如下: 从数据池中采样一批数据,将Counter最少的状态-动作对作为目标状态s,ugoal, 采样分段引力势能,引力势能如下式所示: 其中,ds,u,s,ugoal表示当前状态与目标状态的距离,表示超参数,当两者距离小于或等于时,引力势能表现为平方形式,否则,降低引力势能的大小; 步骤3、进行势能影响的分配,具体处理如下: 利用反事实基线方法,用如下公式计算得到智能体a的优势函数,如下式所示: Aa=UattS,U-∑u′aπu′a|oaUattS,U-a,u′a 其中,U-a为其他智能体-a的联合动作,Aa表示智能体a在当前策略下,采取动作u'a相比于采取其他动作对受势能影响的大小,Aa越大,表示智能体a的当前动作和其他动作相比受势能影响程度越大,反之亦然;接着对智能体i都计算其对应的Ai,并通过softmax操作得到智能体内在受势能影响的占比: 设智能体i每个时间步t的奖励为ri t,如下式所示: 步骤4、利用人工势场影响更新探索策略,加快对环境空间的探索,利用成功经验信号引导目标策略学习。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津大学,其通讯地址为:300072 天津市南开区卫津路92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。