首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向分割学习的模型后门攻击脆弱性分析方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江大学

摘要:本发明公开了一种面向分割学习的模型后门攻击脆弱性分析方法和系统,属于人工智能安全领域。收集图像分类模型在分割学习过程中由客户端底层模型发送至服务器端中间模型的第一中间层表示,结合辅助数据集迭代训练底层替代模型;利用第一中间层表示训练聚类器,获取聚类类别到真实类别的映射关系,得到锚点;基于统计思想获取与图像触发器对应的中间层表示触发器;基于中间层表达形式的锚点替换目标类样本的后门攻击方法,向中间模型注入后门并训练;利用测试样本检测图像分类模型的后门攻击成功率,获得模型后门攻击脆弱性。本发明综合考虑了攻击测试方法的成功率和隐蔽性,可以更加全面的暴露模型在分割学习框架下的漏洞,推动防御技术的发展。

主权项:1.一种面向分割学习的模型后门攻击脆弱性分析方法,其特征在于,包括以下步骤:(1)将待进行后门攻击脆弱性分析的图像分类模型分割为底层模型、中间模型和顶层模型,所述中间模型部署在服务器端,底层模型和顶层模型部署在本地客户端;(2)收集图像分类模型在分割学习训练过程中由客户端底层模型发送至服务器端中间模型的第一中间层表示,利用收集的第一中间层表示与辅助数据集迭代训练底层替代模型;(3)利用收集的第一中间层表示训练聚类器,通过辅助数据集的聚类结果和真实标签获取聚类类别到真实类别的映射关系,将后门攻击目标类别的聚类中心作为锚点;(4)基于统计思想获取与图像触发器对应的中间层表示触发器;包括:(4-1)向所有的辅助数据集样本中加入图像触发器,获得带触发器的辅助数据集;(4-2)将带触发器的辅助数据集输入到训练后的底层替代模型中,获取带触发器的第一替代中间层表示;以及,将不带触发器的辅助数据集输入到训练后的底层替代模型中,获取不带触发器的第一替代中间层表示;(4-3)计算同一辅助数据集样本对应的带触发器的第一替代中间层表示和不带触发器的第一替代中间层表示在每一个中间层表示位上的差异,将所有样本在同一位上的差异累加,取差异累加值最大的若干位作为触发位置;(4-4)计算辅助数据集样本的第一替代中间层表示在每一个中间层表示位上的均值,取触发位置的均值作为触发器数值;(4-5)结合触发位置和触发器数值得到中间层表示触发器;(5)基于中间层表达形式的锚点替换目标类样本的后门攻击方法,向服务器端中间模型注入后门并训练,修改服务端中间模型;包括:(5-1)设置服务器端中间模型的后门注入轮数和每一个轮次包含的后门注入批次;(5-2)在每一个训练批次中,选择一定数量的步骤(2)收集的第一中间层表示,结合中间层表示触发器,对服务器端中间模型进行后门注入训练,更新中间模型,所述的后门注入训练具体包含两阶段训练过程:选择一个训练批次的收集的第一中间层表示;在第一阶段训练过程中,保留服务端中间模型的副本,记为副本模型,向收集的第一中间层表示中加入中间层表示触发器,获得带触发器的第一中间层表示;计算带触发器的第一中间层表示输入服务端中间模型后生成的第二中间层表示与锚点之间的损失,根据损失结果计算相应的梯度,更新中间模型;在第二阶段训练过程中,将不带触发器的收集的第一中间层表示分别输入到第一阶段更新后的中间模型和副本模型,得到两个第二中间层表示,计算两个第二中间层表示之间的损失,根据损失结果计算相应的梯度,更新中间模型;(5-3)迭代多个训练批次完成一轮训练;(5-4)经历若干轮训练后得到最终修改后的服务端中间模型;(6)利用测试样本检测图像分类模型的后门攻击成功率,判断图像分类模型的后门脆弱性,后门攻击成功率越高,说明图像分类模型在分割学习中的后门脆弱性越高。

全文数据:

权利要求:

百度查询: 浙江大学 一种面向分割学习的模型后门攻击脆弱性分析方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。