首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于元模仿学习的多智能体博弈强化学习安全测试方法和系统 

申请/专利权人:浙江工业大学

申请日:2024-02-29

公开(公告)日:2024-06-25

公开(公告)号:CN118246019A

主分类号:G06F21/57

分类号:G06F21/57;G06N5/04;G06N3/092;G06N3/0985

优先权:

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:本发明公开了一种基于元模仿学习的多智能体博弈强化学习安全测试方法和系统,属于面向多智能体博弈强化学习模型安全测试领域,包括:通过元模仿学习的方式,实现仅通过少量专家样本数据进行克隆,获取与原模型策略相同的影子模型。并对影子模型使用梯度下降的方式进行安全测试来发现其策略上的安全漏洞。本发明具有低成本、高效率的优势,对保证多智能体强化学习模型安全方面具有极其重要的实践意义。

主权项:1.一种基于元模仿学习的多智能体博弈强化学习安全测试方法,其特征在于,包括以下步骤:步骤1:根据多智能体博弈场景的状态空间、动作空间以及奖励机制,构建目标智能体模型,采用MAPPO算法对目标智能体模型进行优化,输出最优策略,将包含最优策略的目标智能体模型作为专家模型,获取专家模型的状态动作对,作为专家演示数据并保存;步骤2:构建元模仿学习模型,将专家演示数据输入元模仿学习模型进行迭代训练,使元模仿学习模型学习专家模型的先验知识策略,得到目标智能体模型的影子模型;步骤3:采用策略梯度损失函数作为影子模型的损失函数,基于影子模型输出的模型参数相对于所述损失函数的梯度信息,生成对抗性扰动并添加到影子模型的输入中,重复多轮并评估每轮的模型输出,进行安全测试。

全文数据:

权利要求:

百度查询: 浙江工业大学 基于元模仿学习的多智能体博弈强化学习安全测试方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。