首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于高动态多层语义编码的视频描述生成方法 

申请/专利权人:电子科技大学

申请日:2024-03-21

公开(公告)日:2024-06-25

公开(公告)号:CN118247704A

主分类号:G06V20/40

分类号:G06V20/40;G06V10/44;G06V10/771;G06V10/80;G06V10/82;G06N3/0455

优先权:

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:该发明公开了一种基于高动态多层语义编码的视频描述生成方法,视频描述生成领域。本发明通过利用transformer结构强大的语义特征提取与编码能力,在视频帧级别上获得更丰富的视觉语义特征,并设计并行串行相结合的特征编码结构,挖掘帧内网格对象关系语义信息以及帧间动态变化语义信息。同时,设计多层特征注意力的编码结构,进行关键帧视觉特征的筛选与融合,降低无效帧对特征编码的干扰,进一步增强在高动态场景下的视频语义信息的编码能力,有效地提升视频描述生成的准确性。

主权项:1.一种基于高动态多层语义编码的视频描述生成方法,该方法包括:步骤1:视频帧特征提取;对于输入视频,按照帧秒进行视频帧采样,获得K帧图像I,通过基于ImageNet预训练的SwinTransformer作为主干网络提取每一帧图像的网格特征Fb:Fb=SwinTI其中,Z为视频帧网格数,C为特征通道维度,SwinT.为SwinTransformer特征提取器;步骤2:全局视觉信息提取及共享;首先利用平均池化操作从视频帧级别视觉信息Fb中捕获视频全局语义信息,将其作为共享视觉信息Vg,然后,将其分别注入每一帧视觉特征中,从而获得具有共享全局语义信息的多帧网格特征Vb;Vg=FCAvgPoolFbV′b=FCFbVb=ConcatVg,V′b其中,FC表示一个全连接层,能够将视觉特征映射到具有相同维度的特征嵌入空间中,AvgPool.表示针对维度K的平均池化操作,Concat.表示特征级联操作;补充基于截断正态分布构建的位置信息Vpos,获得初始化视频帧级别的视觉语义特征Vf;V′f=Vb+VposVf=DropoutLNReLUV′f其中,ReLU*表示非线性激活函数,LN*表示层归一化操作,Dropout*表示数据随机置零操作;步骤3:构建并行多层帧内网格对象关系语义特征编码器利用具有多头的注意力模块MHAQ,K,V实现特征编码:MHAQ,K,V=Concath1,…,hnW1hi=AttentionQW2,KW3,VW4 其中,W*表示可学习的权重矩阵,n表示多头注意力机制中头的个数,Q,K,V分别表示查询向量、关键向量、数值向量,Attention.表示注意力加权过程,softmax.表示概率分布计算过程,d表示关键向量维度;对于第i层、第l个视频帧,网格对象关系语义特征编码如下: 其中,表示第i层、第l个视频帧的网格对象语义特征,表示第i+1层、第l个视频帧的网格对象语义特征,ReLU.表示非线性激活函数,初始化第0层输入特征Vf表示初始化视频帧对象语义特征;基于最后一层帧网格对象关系语义特征编码输出结果,利用平均池化层得到每一帧的视觉语义特征VF; VF=ConcatV′0,…,V′K其中,AvgPool.表示平均池化层,表示第N层、第l个视频帧的网格语义特征;步骤4:构建串行多层帧间语义信息特征编码器;对于VF,采用串行M层的帧间语义信息特征编码结构,对于第i层,帧间语义信息特征编码如下: 其中,表示视频语义特征,表示第i+1层编码后的视频语义特征;步骤5:构建自然语言描述生成解码器;进行前t-1时刻语言特征融合: 其中,Ht-1表示t-1时刻Transformer的隐藏状态,H0:t-1表示前t-1时刻的隐藏层状态,表示t时刻文本语义特征;同时,通过计算视频帧与上一时刻隐藏状态的相关性得分,进行视频帧特征筛选和特征融合,将融合后的视频帧特征作为视频语义特征编码结果进行描述生成; 其中,表示t时刻视频语义特征,表示第M层编码后的视频语义特征;然后,将融合后的视觉特征和语言特征送入到Transformer结构中,进行跨模态时序性语义映射: Ht=LNDropoutH′t-1W2+Ht-1最后,利用全连接层将Transformer的隐藏状态Ht映射到词向量空间中,实现单词wt的概率预测:Ptwt=SoftmaxFCDropoutHt基于单词wt的预测概率Ptwt,采用交叉熵损失约束训练阶段的单词生成: 其中,T表示句子的最大单词数,Ptwt表示当前t时刻预测单词的概率值;步骤6:基于强化学习策略的网络优化;基于步骤5训练得到的描述生成模型,进一步采用强化学习的训练策略,并利用CIDEr得分构建奖励机制,约束字幕生成过程:lossreward=-E1:Tscorew1:T其中,score*表示CIDEr指标的分数,E1:T.表示预测每个单词得分的期望值,lossreward表示强化学习奖励机制。

全文数据:

权利要求:

百度查询: 电子科技大学 一种基于高动态多层语义编码的视频描述生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。