首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于失效演示迁移的对抗智能体测试方法及装置 

申请/专利权人:中国科学院软件研究所

申请日:2024-03-26

公开(公告)日:2024-06-28

公开(公告)号:CN118261235A

主分类号:G06N3/092

分类号:G06N3/092;G06N3/094;G06N3/096;G06N3/045;G06N3/0475;G06N3/006

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本发明属于计算机技术领域,涉及一种基于失效演示迁移的对抗智能体测试方法及装置。该方法包括:利用轨迹生成器和轨迹判别器对测试智能体进行迁移训练;在训练中的测试智能体与目标智能体的交互过程中,在失效演示中建立关键状态集,将目标轨迹与关键状态集进行匹配;当目标轨迹匹配到关键状态上时,依据场景的多样性和动作的环境奖励作为指导进行动作扰动,引导出目标智能体的更多和更多样化的失效场景;记录失效场景的轨迹,得到目标智能体的所有失效场景的轨迹。本发明通过从源任务的失效演示中进行迁移学习来构建测试智能体,并结合在关键状态的动作扰动来探索目标智能体更多和更多样化的失效场景。

主权项:1.一种基于失效演示迁移的对抗智能体测试方法,其特征在于,包括以下步骤:模仿源任务的失效演示,结合在目标任务中测试智能体与目标智能体的交互,来迁移训练测试智能体的策略网络,将测试智能体的策略网络作为目标任务的轨迹生成器;训练测试智能体的轨迹判别器,所述轨迹判别器包括编码器和分类器,首先利用一对编码器将源任务和目标任务的轨迹映射到统一隐空间,再用分类器对源任务和目标任务的轨迹进行分类,促使测试智能体模仿失效演示;在训练中的测试智能体与目标智能体的交互过程中,在失效演示中建立关键状态集,将目标轨迹与关键状态集进行匹配;当目标轨迹匹配到关键状态上时,依据场景的多样性和动作的环境奖励作为指导进行动作扰动,引导出目标智能体的更多和更多样化的失效场景;记录失效场景的轨迹,得到目标智能体的所有失效场景的轨迹。

全文数据:

权利要求:

百度查询: 中国科学院软件研究所 基于失效演示迁移的对抗智能体测试方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。