【发明公布】一种基于协作谈判的多智能体强化学习方法_桂林电子科技大学_202410014873.1

导航：龙图腾网> 最新专利技术> 一种基于协作谈判的多智能体强化学习方法_桂林电子科技大学_202410014873.1

申请/专利权人：桂林电子科技大学

申请日：2024-01-04

公开（公告）日：2024-06-14

公开（公告）号：CN118194905A

主分类号：G06N3/006

分类号：G06N3/006;G06N20/00

优先权：

专利状态码：在审-公开

法律状态：2024.06.14#公开

摘要：本发明公开了一种基于协作谈判的多智能体强化学习方法，属于多智能体强化学习领域，包括对多智能体环境和策略建模，根据智能体的决策收益和当前环境进行协作谈判，利用谈判器生成最优策略，利用最优策略指导智能体长期协作，做出收益相对公平且促进群体最大化的决策行为。本发明中通过谈判器生成领导者的概率分布，依据概率分布选择出多智能体的领导者，然后其余智能体依据领导者的决策对当前环境进行最优策略选择，能够有效解决多智能体的决策冲突，同时有效减少智能体之间的收益差距，保证多智能体长期协作的公平性，促进了多智能体之间达成长期协作意愿，提高了多智能体系统的稳定性。

主权项：1.一种基于协作谈判的多智能体强化学习方法，其特征在于，根据多智能体空间信息定义多智能体环境，对所述多智能体环境和观测空间建模，利用谈判指示器生成最优协作策略，利用协作策略达成长期合作，并保证长期协作下智能体的收益分配公平，促进多智能体系统的长期稳定；利用谈判器模拟训练，并依据训练所得概率分布选择最优协作策略。对于智能体i，其观测信息为oi，包括当前环境、车辆数量、车辆位置和速度等信息，多智能体环境s由各个智能体的观测信息组成，智能体当前环境下的动作由自身策略πi以及其余智能体策略π-i共同决定，其主要过程包括以下步骤：步骤1、智能体在训练阶段共享观测信息，在当前环境下依据其余智能体的策略π-i计算自己在策略πi下的收益。步骤2、谈判器采集各个智能体的观测信息生成效益矩阵，并基于此进行协作谈判最终由谈判指示器给出最终协作策略。

全文数据：

权利要求：

百度查询：桂林电子科技大学一种基于协作谈判的多智能体强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种长距离通信的电网无人机巡检系统及方法_国网山东省电力公司金乡县供电公司_202310722098.0

下一篇：一种基于Cantor光子晶体和石墨烯复合结构的光子滤波器_湖北科技学院_202110981488.0

相关技术

一种长距离通信的电网无人机巡检系统及方法_国网山东省电力公司金乡县供电公司_202310722098.0

一种基于Cantor光子晶体和石墨烯复合结构的光子滤波器_湖北科技学院_202110981488.0

一种抗鸡TLR15蛋白的多克隆抗体及制备方法_天津农学院_202210154569.8

应用于扫地机的语音控制执行功能方法、装置、电子设备_北京小狗吸尘器集团股份有限公司_202011196675.X

一种多种传感器智能小车控制电路_华南理工大学广州学院_201911114816.6

基于区块链的数据处理方法、装置、设备及存储介质_南方科技大学_202011613850.0

一种抗体的存取系统及方法_四川省肿瘤医院_202210099784.2

立式输送机和另一输送机的总成以及这种立式输送机或这种另一输送机_奇玛洛克斯专利有限公司_202080073373.5

一种锂离子电池电极多相多尺度建模方法及系统_华中科技大学_202111433503.4

用于抑制系统低频振荡的双馈风机本地阻尼控制系统_武汉理工大学_202210055674.6

一种适用于太阳能建筑一体化的集热器_华春新能源股份有限公司_202111271524.0

带有刀具的手操纵式工作器械_安德烈·斯蒂尔股份两合公司_202010953953.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】一种基于协作谈判的多智能体强化学习方法_桂林电子科技大学_202410014873.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务