基于元模仿学习的多智能体博弈强化学习安全测试方法和系统

导航：龙图腾网> 最新专利技术> 基于元模仿学习的多智能体博弈强化学习安全测试方法和系统

申请/专利权人：浙江工业大学

申请日：2024-02-29

公开（公告）日：2024-06-25

公开（公告）号：CN118246019A

主分类号：G06F21/57

分类号：G06F21/57;G06N5/04;G06N3/092;G06N3/0985

优先权：

专利状态码：在审-公开

法律状态：2024.06.25#公开

摘要：本发明公开了一种基于元模仿学习的多智能体博弈强化学习安全测试方法和系统，属于面向多智能体博弈强化学习模型安全测试领域，包括：通过元模仿学习的方式，实现仅通过少量专家样本数据进行克隆，获取与原模型策略相同的影子模型。并对影子模型使用梯度下降的方式进行安全测试来发现其策略上的安全漏洞。本发明具有低成本、高效率的优势，对保证多智能体强化学习模型安全方面具有极其重要的实践意义。

主权项：1.一种基于元模仿学习的多智能体博弈强化学习安全测试方法，其特征在于，包括以下步骤：步骤1：根据多智能体博弈场景的状态空间、动作空间以及奖励机制，构建目标智能体模型，采用MAPPO算法对目标智能体模型进行优化，输出最优策略，将包含最优策略的目标智能体模型作为专家模型，获取专家模型的状态动作对，作为专家演示数据并保存；步骤2：构建元模仿学习模型，将专家演示数据输入元模仿学习模型进行迭代训练，使元模仿学习模型学习专家模型的先验知识策略，得到目标智能体模型的影子模型；步骤3：采用策略梯度损失函数作为影子模型的损失函数，基于影子模型输出的模型参数相对于所述损失函数的梯度信息，生成对抗性扰动并添加到影子模型的输入中，重复多轮并评估每轮的模型输出，进行安全测试。

全文数据：

权利要求：

百度查询：浙江工业大学基于元模仿学习的多智能体博弈强化学习安全测试方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种圆管弯曲成型装置

下一篇：一种泡菜水检测用的取样装置

相关技术

一种圆管弯曲成型装置

一种泡菜水检测用的取样装置

一种纸面石膏板加工用除尘装置

一种地铁车辆车钩检修用辅助工具

一种巡检方便的电容补偿柜

一种脱模剂集中供料装置

一种低交叉极化抑制的宽带UWB天线及穿戴设备

一种生态护坡绿化模块

一种纸尿裤生产用包边机

一种带固定结构的冲压装置

一种螺旋输送装置

一种上颌窦膜推起工具

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于元模仿学习的多智能体博弈强化学习安全测试方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务