首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于生成对抗网络的高效补丁攻击方法_大连理工大学_202410441282.2 

申请/专利权人:大连理工大学

申请日:2024-04-12

公开(公告)日:2024-06-21

公开(公告)号:CN118230096A

主分类号:G06V10/774

分类号:G06V10/774;G06V10/82;G06V40/16;G06V10/764;G06N3/094;G06N3/0475;G06N3/045;G06N3/084

优先权:

专利状态码:在审-公开

法律状态:2024.06.21#公开

摘要:本发明属于深度学习的对抗样本领域,公开一种基于生成对抗网络的高效补丁攻击方法。为解决对抗补丁会遮挡人脸关键位置并且显眼的问题,我们提出使用生成对抗网络生成逼真的补丁,并将其贴在额头处,这样便不会遮挡住人脸关键位置的同时保持自然性;为解决现有脸部补丁迁移成功率低的问题,我们将贴上对抗补丁的对抗样本输入到替代模型上进行优化,并且使用注意力损失和分类损失对其损失函数进行优化,然后与基于迁移的攻击方法进行结合。本发明能够在不遮挡人脸关键位置的情况下,制作出具有自然性并且保持高迁移成功率的对抗补丁,能够对现有的深度学习模型尤其是人脸分类模型造成更大威胁,从而推动深度学习领域对于模型鲁棒性和安全性的思考。

主权项:1.一种基于生成对抗网络的高效补丁攻击方法,其特征在于,提出了一种两阶段的基于生成对抗网络和数字注意力的方法,分别命名为GA和DA;步骤如下:步骤一、初始化生成对抗网络的潜在空间Pz,从中随机取样潜在变量z∈Pz,并根据补丁数量和放置位置初始化图片掩码mask,初始化人脸数据集;步骤二、基于生成对抗网络的补丁生成首先通过预训练生成对抗网络中的生成器由潜在变量生成维度为m×m的初始补丁,即patch=Gz;生成器依赖于对抗梯度来指导潜在变量z合成可欺骗目标对象检测器的图像,为了获得对抗梯度,首先,将初始补丁根据图片掩码mask贴在人脸指定位置上;再使用TPS对初始补丁随机变换,记为Tpatch;根据来自人脸数据集的图像X将Tpatch附加到人脸额头位置,即:Xadv=mask⊙X+Tpatch其中,mask为二进制掩码,⊙为元素级乘积;用AX,Tpatch来表示上述过程,并得到修改后的对抗样本即对抗人脸图像Xadv;对于非目标攻击,攻击目的是使目标模型分类标签与真实类别标签不一致即可,损失是在替代模型预测类别标签和真实类别标签之间,损失函数采用多分类任务中常用的交叉熵损失函数,即: 其中,pi为真实类别标签,qi为预测类别标签;因此将对抗样本Xadv输入到替代模型F中,并将分类结果与真实类别标签做交叉熵损失计算:loss=CEFXadv,ysource其中,FXadv为替代模型预测分类标签,ysource为真实类别标签,损失函数越大即预测分类标签距离真实类别标签越远;随后根据损失函数对潜在变量的对抗梯度进行反向传播,并用梯度下降算法对潜在变量z进行更新,直至指定迭代次数用尽,即可获得当前对抗效果最好的对抗补丁;步骤三、基于数字注意力的补丁攻击在步骤二生成对抗补丁的基础上,在将对抗补丁应用于人脸上之后,继续在对抗补丁上应用数字注意力攻击以进一步提高对抗样本可迁移性;首先对对抗补丁的处理与步骤二一致,对对抗补丁施加TPS变换,并且将其贴在人脸上,并对对抗补丁添加随机扰动N得到对抗样本X′adv;目的是制作具有高迁移性的对抗补丁,因此在不改变选定人脸图像其它位置的基础上,在对抗补丁上应用基于迁移的攻击,在部分不影响人脸特征的区域中提高对抗样本的可迁移性;在将对抗样本X′adv输入到替代模型F后,将攻击划分成两部分,一部分是分类攻击,另一部分为注意力攻击;为了平滑对抗补丁,使用总变化约束;1分类攻击分类攻击是为了使分类标签与真实类别标签不一致从而达到攻击目的;在将对抗补丁Tpatch贴到人脸指定位置并添加随机扰动得到X′adv之后,将X′adv输入到指定数量替代模型当中,并将输出结果与真实类别标签做交叉熵损失计算,即:loss=CEy,ysource其中,y为替代模型预测分类标签,将若干替代模型的权重设为一致,即最后损失函数之和根据替代模型数量做平均;随后计算平均损失函数,即: 其中,m为替代模型数量,Fi·为第i个替代模型,为交叉熵损失函数;平均损失函数Lclassify越小,其分类标签与真实类别标签距离越远,从而实现攻击目的;2注意力攻击首先使替代模型的注意力被攻击和迁移,以使对抗补丁在输入到不同的黑盒目标模型时更具可迁移性;采用AblationCAM生成模型的注意力图,将替代模型生成的注意力图从选定人脸图像中的关键位置转移到人脸图像的其他区域,从而使目标模型的注意力图也相应地被改变;与步骤三1分类攻击一致,获得对抗样本X′adv,将对抗样本X′adv输入到替代模型的AblationCAM生成器中,得到X′adv的替代模型预测分类标签y的注意力图My,即:My=φX′adv,ysource其中,φ·代表AblationCAM生成器以获取图像注意力图;对之前的注意力攻击算法进行了改进,将注意力算法限制为集中在图像主要区域上,即人脸图像的中间位置,可以明显提高攻击的有效性;在获得X′adv的真实类别标签ysource的注意力图之后,将My输入到损失函数当中,攻击模型注意力的目标函数如下: 其中,·obj代表将注意力集中于人脸图像的关键区域,即图像中间区域人脸位置,代表第i个替代模型的注意力图,N是注意力图My的关键区域中的像素的总数,并且n是My的关键区域中的值大于0的像素的数量,RELU·是只关注对象区域的RELU函数,对象区域是注意力图中值大于0的部分;RELUMy是My的对象区域中大于0的总像素值;随后将若干个替代模型的损失函数加和并平均,即: 其中,m为替代模型数量,代表第i个替代模型的注意力损失函数,对每个替代模型赋予相同的权重,替代模型越多,对抗样本的可迁移性就会越强;通过最小化Lattention,对抗补丁被不断优化以使注意力图My的关键区域中的总像素值尽可能低,大于0的像素尽可能少,可减少或转移注意力图My中目标区域的注意力到人脸图像的非关键区域;LTV是所生成的补丁上的总变化损失,以促进补丁平滑度,其定义为: 其中,Pi,j是位置i,j处的对抗补丁Padv的像素值;减小LTV的值将使对抗补丁更平滑;因此总损失函数为:Ltotal=α·Lclassfy+β·Lattention+γ·LTV其中α、β、γ分别为平均分类损失、平均注意力损失、总变化损失的权重系数。

全文数据:

权利要求:

百度查询: 大连理工大学 一种基于生成对抗网络的高效补丁攻击方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。