首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种利用基于交通协调器的多智能体合作和控制方法_浙江大学;四川大学;中国航天科工集团第三总体设计部_202410235673.9 

申请/专利权人:浙江大学;四川大学;中国航天科工集团第三总体设计部

申请日:2024-03-01

公开(公告)日:2024-06-21

公开(公告)号:CN118228802A

主分类号:G06N3/092

分类号:G06N3/092;G08G1/01;G08G1/00;G08G1/07;G06N3/045

优先权:

专利状态码:在审-公开

法律状态:2024.06.21#公开

摘要:本发明公开了一种利用基于交通协调器的多智能体合作和控制方法,本发明提出了一种新的利益权衡方案,让智能体直接按照团队利益行事,为了实现这个方案,引入了交通协调器网络,交通协调器能够在不改变网络结构的情况下,根据周围智能体相对于自我智能体的特征相关性的重要性来发布指令,然后,智能体根据收到的命令及其状态采取行动,此外,本发明设计了反事实优势函数来衡量智能体的行为对团队利益的影响,以及智能体自身的优势函数来衡量其行动能力。相较于其他多智能体算法,不仅仅只局限于智能体自身的奖励最大化,而是从整个团体的角度来衡量智能体做动作的奖励,而且算法的可扩展性不受智能体数量增加的影响。

主权项:1.一种利用基于交通协调器的多智能体合作和控制方法,其特征在于,包括以下步骤:S1、收集每个回合内智能体及其周围智能体的观察值作为该智能体的状态,将其作为交通协调器网络的输入,训练交通协调器网络,将其输出作为智能体得到的指令;S2、根据所述智能体得到的指令和自身的观察值作为策略网络的输入,得到智能体在收到指令下的动作,假设智能体没有得到指令的情况下,将自身的观察值作为策略网络的输入,得到智能体的无指令动作;S3、智能体执行有指令动作与环境交互,得到智能体自身的奖励、周围智能体的联合奖励和下一状态,将下一状态分别输入到两个评价网络中得到两个状态值函数,两个状态值函数分别用智能体自身的奖励和区域联合奖励监督,区域联合奖励和对应的状态值函数用于监督团队状态动作值函数,训练团队状态动作值函数网络;S4、将区域联合状态和区域联合动作输入到所述团队状态动作值函数网络中,其中区域联合动作中的智能体的动作分为有指令动作和无指令动作,所述团队状态动作值函数网络分别输出有指令的和无指令的团队利益状态动作值函数Qtotsi,azi和两个状态动作值函数做差,计算反事实优势函数,与自身优势函数进行加权,从而训练策略网络。

全文数据:

权利要求:

百度查询: 浙江大学;四川大学;中国航天科工集团第三总体设计部 一种利用基于交通协调器的多智能体合作和控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。