恭喜杭州电子科技大学李平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜杭州电子科技大学申请的专利基于时空自注意力单步扰动的视频预测防御方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116863379B 。
龙图腾网通过国家知识产权局官网在2025-03-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310851610.1,技术领域涉及:G06V20/40;该发明授权基于时空自注意力单步扰动的视频预测防御方法是由李平;倪家楠;徐向华设计研发完成,并于2023-07-11向国家知识产权局提交的专利申请。
本基于时空自注意力单步扰动的视频预测防御方法在说明书摘要公布了:本发明公开了基于时空自注意力单步扰动的视频预测防御方法。本发明首先对输入的视频帧通过层次局部时空编码模块,获得层次局部时空特征;通过时空自注意力编码模块,获得时空自注意力特征;通过并行时空解码器并行输出预测视频帧;通过时序单步扰动生成器,快速生成强大的对抗样本,作为输入重复之前的步骤得到鲁棒预测视频帧。本发明通过层次局部时空编码模块,从局部到整体、层次化地提取局部时空特征,强化视频预测模型对局部细节的提取;通过特征对齐损失函数,使对抗样本的中间特征与干净样本的中间特征对齐,降低对抗扰动对模型的影响;通过时序单步扰动生成器,基于视频帧之间的时序关系,快速生成强大的对抗样本,降低了对抗训练的成本。
本发明授权基于时空自注意力单步扰动的视频预测防御方法在权利要求书中公布了:1.基于时空自注意力单步扰动的视频预测防御方法,其特征在于:步骤1对原始视频进行采样获得原始视频帧序列,构建层次局部时空编码模块,将原始视频帧序列输入层次局部时空编码模块,获得层次局部时空特征;具体是:1-1对视频进行每秒K帧采样,K=5~10,获取T+T′个视频帧,得到原始视频帧序列其中,T为输入的视频帧数量,T′为预测视频帧的数量,100≤T≤200,0<T′≤200,Xt表示第t个视频帧,表示实数域,H和W分别表示视频帧的高度和宽度,3表示RGB通道数;1-2将原始视频帧序列中的前T个视频帧分解成不重叠的图像块,得到分解后的输入视频帧图像块序列上标patch表示图像块,下标1:T表示在原视频帧序列截取出从第1帧到第T帧的视频帧序列,Xi表示第i个视频帧Patch·将输入视频帧分割成p·p个互不重叠的图像块,C=3·p·p,p=16;1-3将输入视频帧图像块序列进行下采样,得到下采样的视频帧序列,上标Down表示下采样,二维卷积Conv2D·输入通道数为C,输出通道数为C′,卷积核尺寸为3×3,步长为2,填充大小为1;LayerNorm·为层归一化,输入的通道数为C′,SiLU·为Sigmoid函数加权线性单元,表示为H′和W′为下采样后视频帧的高和宽;1-4将下采样的视频帧序列按时间顺序均等分为4个视频帧序列分别代表包含视频帧序号为[1,U],[U+1,2U],[2U+1,3U],[3U+1,4U]的视频帧序列,其中表示向上取整;如果输入帧序列能被4整除,则4U=T;如果输入帧序列不能被4整除,则随机复制视频帧在其原位置之后作为填充,直至输入帧序列数能够被4整除为止;1-5构建层次局部时空编码模块:由两个三维卷积层、两个层归一化层、两个SiLU激活函数、残差连接构成;将视频帧序号为[1,U],[U+1,2U],[2U+1,3U],[3U+1,4U]的视频帧序列输入局部时空特征提取模块,得到对应的局部时空特征 其中,f1·=SiLULayerNormConv3D·,三维卷积Conv3D·输入通道数为C′,输出通道数为2×C′,卷积核尺寸为3×3×3;f2·=SiLULayerNormConv3D·,三维卷积Conv3D·输入通道数为2×C′,输出通道数为C′,卷积核尺寸为3×3×3;将F1:U、FU+1:2U、F2U+1:3U和F3U+1:4U输入局部时空特征提取模块,得到增强局部时空特征并按照时间维度做合并处理,得到包含视频帧序号为[1,2U],[2U+1,4U]的增强局部时空特征1-6合并增强局部时空特征内的相邻图像块,将每四个不重叠的大小为的相邻图像块合并为一个大小为的图像块, 分别获得包含视频帧序号为[1,2U]和[2U+1,4U]的合并后局部时空特征集合其中Reshape·为维度重构函数,在保持张量中元素不变的情况下按顺序重新构建维度;1-7重复步骤1-5~1-6,将局部时空特征集合进行合并,得到层次局部时空特征其中H″=H′×4,W″=W′×4,步骤2构建时空自注意力编码模块,将层次局部时空特征作为输入,获得时空自注意力编码特征;所述的时空自注意力编码模块由一个时间位置编码模块、一个二维卷积多头注意力层、一个局部时空特征提取模块、两个残差连接层和两个层归一化层组成;具体步骤是:2-1构建时间位置编码模块,定义时间间隔向量将时间间隔向量g输入时间位置编码层PosEmbed·并扩展得到时间位置编码 PosEmbed·的输入词典长度为T+T′,嵌入向量的维度为C″,输出嵌入时间位置矩阵下标emb表示嵌入,其偶数维度的值为奇数维度的值为Yembpos,2i表示嵌入时间间隔矩阵Yemb在pos,2i位置的值,pos和2i分别为各自维度的坐标,为正整数集;Expand·是扩展函数,其输入嵌入时间间隔矩阵通过维度复制操作输出时间位置编码沿时间维度截取前T个视频帧的时间位置编码获得带有时间位置编码的层次局部时空特征2-2构建二维卷积多头注意力模块:将带有时间位置编码的层次局部时空特征作为输入,先经过一个卷积层和一个层归一化层得到初始化的查询张量Q、关键值张量K、值张量V的值,即二维卷积Conv2D·输入通道数为C′,输出通道数为C′,卷积核尺寸为1×1,Reshape·为维度重构函数,在保持张量中元素不变的情况下,将输入的维度的通道划分为不同的注意力头数,重构为注意力头数heads=8;2-3重构带有时间位置编码的层次局部时空特征的维度,得到维度重构后的层次局部时空特征将维度重构后的层次局部时空特征作为Q,K,V输入,A=AttentionFre,Fre,Fre,得到注意力权重矩阵其中Softmax·为激活函数,用于对当前时刻空间维度信息编码的注意力系数进行归一化,Nv为值张量v的维度;2-4二维卷积多头注意力模块的输出为F′=f2DMHAA,二维卷积多头注意力模块输出函数f2DMHA·=SiLULayerNormConv2DunReshape·,其中unReshape·为反向维度重构函数,输入为注意力权重矩阵输出为维度重构后的注意力权重矩阵二维卷积Conv2D·的输入通道数为C″,输出通道数为C″,卷积核尺寸为1×1;经过二维卷积多头注意力模块后,得到初步时空自注意力特征F′=2DMHAQ,K,V,其中2DMHA·,·,·为二维卷积多头注意力模块;2-5对带有时间位置编码的层次局部时空特征和初步时空自注意力特征进行残差连接,并通过层归一化,得到归一化后的时空自注意力特征2-6将归一化后的自注意力特征输入与1-5相同的局部时空特征提取模块,FST=f1f2F″,得到增强时空自注意力特征下标ST表示时空;f1·=SiLULayerNormConv3D·,三维卷积Conv3D·输入通道数为C″,输出通道数为2×C″,卷积核尺寸为3×3×3,f2·=SiLULayerNormConv3D·,三维卷积Conv3D·输入通道数为2×C″,输出通道数为C″,卷积核尺寸为3×3×3;2-7将增强时空自注意力特征和归一化后的全局时空自注意力特征进行残差连接,并通过层归一化操作LayerNormF″+FST,得到增强时空自注意力特征2-8重复步骤2-1~2-7,堆叠Nencode=3~5块局部时空注意力编码子模块,每一块的输入为上一块的输出,每一块的输出为归一化后的时空自注意力特征,记为表示第l块的归一化后的增强时空自注意力特征,最终第四块时空注意力编码模块输出时空自注意力特征步骤3构建并行时空解码器,将时空自注意力特征作为输入,输出为预测视频帧序列;所述的并行时空解码器由一个时序位置查询模块、两个二维卷积多头注意力模块、两个局部时空特征提取模块组成;具体步骤是:3-1构建时序位置查询模块,截取步骤2-1中时间位置编码的预测段并重构维度,得到重构维度后时间位置编码的预测段Reshape·为维度重构函数,将输入的维度的通道划分为不同的注意力头数,并重构为3-2将重构维度后时间位置编码的预测段输入到二维卷积多头注意力模块,得到时间位置编码预测段的自注意力特征3-3对时间位置编码的预测段和时间位置编码预测段的自注意力特征进行残差连接,并通过层归一化操作得到归一化后的时间位置编码预测段的自注意力特征3-4.将时空自注意力特征和归一化时间位置编码预测段的自注意力特征重构维度,即获得重构维度后的时空自注意力特征和重构维度后的归一化时间位置编码输出部分自注意力特征上标re表示重构;3-5.将重构维度后的时空自注意力特征和重构维度后的归一化时间位置编码输出部分自注意力特征输入到二维卷积多头注意力模块,即得到解码自注意力特征下标de表示解码;3-6将解码自注意力特征和时间位置编码输出部分自注意力特征进行残差连接,并通过组归一化,F′de=LayerNormFde+Y′T′+1:T+T′得到归一化后的解码自注意力特征3-7将归一化后的解码自注意力特征输入局部时空特征提取模块得到解码的时空特征3-8将解码的时空特征和归一化后的解码自注意力特征进行残差连接,并通过组归一化得到归一化后的解码自注意力特征LayerNorm·为层归一化,输入的通道数为C″;3-9将归一化后的输出自注意力特征进行上采样操作,得到输出特征ConvTranspose2D·为逆卷积操作,内层ConvTranspose2D·卷积核为3×3,步长为2,填充为1,输入通道为C″,输出通道为C″,外层的ConvTranspose2D·卷积核为1×1,输入通道为C″,输出通道为C′;3-10重复步骤3-1~3-9,堆叠Nde=5~8个并行时空解码子模块,构建并行时空解码器,每一块的输入为上一块的输出,最终输出为解码输出特征3-11将解码输出特征进行去图像块化操作,得到预测的视频帧序列unpatch·为图像块合并操作,将互不重叠的图像块合并成一个视频帧,下标t′表示预测的输出视频帧训练的索引;步骤4构建时序单步扰动生成器,将原始视频帧序列、预测视频帧序列和真实的待预测视频帧序列作为输入,输出对抗视频帧序列并将其作为步骤1的输入,重复步骤1~3并输出为鲁棒预测视频帧序列;具体是:4-1构建时序单步扰动生成器,将原始视频输入帧作为输入,随机初始化的噪声并加在原始视频输入的第一帧,生成初始化对抗视频帧序列4-2将初始化对抗视频帧序列作为输入,重复步骤1-2~3-11,获得第一帧对抗训练预测的输出视频帧序列并获得步骤2-8中每一层的对抗训练时空自注意力特征将第一帧对抗训练预测的输出视频帧序列与步骤1-1中的真实视频帧计算均方误差损失将视频帧序列中的前T个视频帧作为输入,重复步骤1-2~2-8,获得步骤2-8中每一块的归一化时空自注意力特征利用其与对抗训练时空自注意力特征计算特征对齐损失,即其中||·||2表示L2范数;构建全局损失函数权衡系数λ>0;4-3对全局损失函数求解关于原始输入视频帧序列的梯度,生成第一帧的单步对抗扰动其中sign·为符号函数,返回输入张量各个数值的符号且和输入维度相同,▽为梯度符号,控制对抗扰动大小的超参数∈=8255,得到第一帧的对抗视频帧为X′1=X1+η1,更新对抗视频帧序列4-4在生成第i帧的对抗扰动时,将第i-1帧的对抗扰动作为第i帧的初始化噪声,得到第i帧的初始化对抗视频帧序列重复步骤4-2~4-3得到所有T个输入帧的对抗视频帧序列4-5将对抗视频帧序列作为层次局部时空编码模块的输入,重复步骤1-2~3-11,得到鲁棒的预测视频序列步骤5利用随机梯度下降算法优化由层次局部时空编码模块、时空自注意力编码模块、并行时空解码器和时序单步扰动生成器组成的视频预测训练模型,对新的视频帧序列依次通过步骤1~3得到对应的预测视频帧序列;具体是:5-1.构建由层次局部时空编码模块、时空自注意力编码模块、并行时空解码器、时序单步扰动生成器构成的视频预测模型,利用随机梯度下降法优化上述视频预测训练模型;5-2.对于新的视频通过采样得到M个视频帧100≤M≤200,并输入上述优化的视频预测训练模型,重复步骤1~3,最终并行输出指定数量的预测视频帧作为视频预测结果,其中0<N≤200是预测视频帧的数量,m和n分别为采样得到的视频帧和预测视频帧的索引。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。