一种基于高动态多层语义编码的视频描述生成方法

导航：龙图腾网> 最新专利技术> 一种基于高动态多层语义编码的视频描述生成方法

申请/专利权人：电子科技大学

申请日：2024-03-21

公开（公告）日：2024-06-25

公开（公告）号：CN118247704A

主分类号：G06V20/40

分类号：G06V20/40;G06V10/44;G06V10/771;G06V10/80;G06V10/82;G06N3/0455

优先权：

专利状态码：在审-公开

法律状态：2024.06.25#公开

摘要：该发明公开了一种基于高动态多层语义编码的视频描述生成方法，视频描述生成领域。本发明通过利用transformer结构强大的语义特征提取与编码能力，在视频帧级别上获得更丰富的视觉语义特征，并设计并行串行相结合的特征编码结构，挖掘帧内网格对象关系语义信息以及帧间动态变化语义信息。同时，设计多层特征注意力的编码结构，进行关键帧视觉特征的筛选与融合，降低无效帧对特征编码的干扰，进一步增强在高动态场景下的视频语义信息的编码能力，有效地提升视频描述生成的准确性。

主权项：1.一种基于高动态多层语义编码的视频描述生成方法，该方法包括：步骤1：视频帧特征提取；对于输入视频，按照帧秒进行视频帧采样，获得K帧图像I，通过基于ImageNet预训练的SwinTransformer作为主干网络提取每一帧图像的网格特征Fb：Fb＝SwinTI其中，Z为视频帧网格数，C为特征通道维度，SwinT.为SwinTransformer特征提取器；步骤2：全局视觉信息提取及共享；首先利用平均池化操作从视频帧级别视觉信息Fb中捕获视频全局语义信息，将其作为共享视觉信息Vg，然后，将其分别注入每一帧视觉特征中，从而获得具有共享全局语义信息的多帧网格特征Vb；Vg＝FCAvgPoolFbV′b＝FCFbVb＝ConcatVg,V′b其中，FC表示一个全连接层，能够将视觉特征映射到具有相同维度的特征嵌入空间中，AvgPool.表示针对维度K的平均池化操作，Concat.表示特征级联操作；补充基于截断正态分布构建的位置信息Vpos，获得初始化视频帧级别的视觉语义特征Vf；V′f＝Vb+VposVf＝DropoutLNReLUV′f其中，ReLU*表示非线性激活函数，LN*表示层归一化操作，Dropout*表示数据随机置零操作；步骤3：构建并行多层帧内网格对象关系语义特征编码器利用具有多头的注意力模块MHAQ,K,V实现特征编码：MHAQ,K,V＝Concath1,…,hnW1hi＝AttentionQW2,KW3,VW4 其中，W*表示可学习的权重矩阵，n表示多头注意力机制中头的个数，Q,K,V分别表示查询向量、关键向量、数值向量，Attention.表示注意力加权过程，softmax.表示概率分布计算过程，d表示关键向量维度；对于第i层、第l个视频帧，网格对象关系语义特征编码如下：其中，表示第i层、第l个视频帧的网格对象语义特征，表示第i+1层、第l个视频帧的网格对象语义特征，ReLU.表示非线性激活函数，初始化第0层输入特征Vf表示初始化视频帧对象语义特征；基于最后一层帧网格对象关系语义特征编码输出结果，利用平均池化层得到每一帧的视觉语义特征VF； VF＝ConcatV′0,…,V′K其中，AvgPool.表示平均池化层，表示第N层、第l个视频帧的网格语义特征；步骤4：构建串行多层帧间语义信息特征编码器；对于VF，采用串行M层的帧间语义信息特征编码结构，对于第i层，帧间语义信息特征编码如下：其中，表示视频语义特征，表示第i+1层编码后的视频语义特征；步骤5：构建自然语言描述生成解码器；进行前t-1时刻语言特征融合：其中，Ht-1表示t-1时刻Transformer的隐藏状态，H0:t-1表示前t-1时刻的隐藏层状态，表示t时刻文本语义特征；同时，通过计算视频帧与上一时刻隐藏状态的相关性得分，进行视频帧特征筛选和特征融合，将融合后的视频帧特征作为视频语义特征编码结果进行描述生成；其中，表示t时刻视频语义特征，表示第M层编码后的视频语义特征；然后，将融合后的视觉特征和语言特征送入到Transformer结构中，进行跨模态时序性语义映射： Ht＝LNDropoutH′t-1W2+Ht-1最后，利用全连接层将Transformer的隐藏状态Ht映射到词向量空间中，实现单词wt的概率预测：Ptwt＝SoftmaxFCDropoutHt基于单词wt的预测概率Ptwt，采用交叉熵损失约束训练阶段的单词生成：其中，T表示句子的最大单词数，Ptwt表示当前t时刻预测单词的概率值；步骤6：基于强化学习策略的网络优化；基于步骤5训练得到的描述生成模型，进一步采用强化学习的训练策略，并利用CIDEr得分构建奖励机制，约束字幕生成过程：lossreward＝-E1:Tscorew1:T其中，score*表示CIDEr指标的分数，E1:T.表示预测每个单词得分的期望值，lossreward表示强化学习奖励机制。

全文数据：

权利要求：

百度查询：电子科技大学一种基于高动态多层语义编码的视频描述生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种口腔扩张支撑装置

下一篇：一种互动茶几安全防护围挡

相关技术

一种口腔扩张支撑装置

一种互动茶几安全防护围挡

一种墙面保护用裁边边压片

一种装配式铝方通转角拼接结构

一种地垫

一种高强度组合式不锈钢管

一种具有分级过滤功能的纳滤膜元件

一种金属管件抛光打磨装置

一种模具加工用定位装置

一种高效物流包装码垛装置

一种护理液调和储存罐

一种可控制持握角度的羽毛球拍

编码相关技术

编码装置和解码装置_夏普株式会社_202311776097.0

视频解码方法、编码方法、解码装置和编码装置_OPPO广东移动通信有限公司_202410449122.2

一种基于GPU的高效视频编码器及编码方法_上海影谱科技有限公司_202110882096.9

图形编码生成方法、验证方法、图形编码和物品验证层_蚂蚁区块链科技(上海)有限公司_202410251886.0

磁编码器、机器人关节及磁编码器的标定方法_上海岭先机器人科技股份有限公司_201910539100.4

编码器优化的文本渲染_安讯士有限公司_202311785952.4

视频编码、解码的方法和装置_腾讯美国有限责任公司_202080062531.7

动图像编码装置、动图像编码方法以及动图像编码程序、动图像解码装置、动图像解码方法以及动图像解码程序_JVC建伍株式会社_201980044804.2

动图像编码装置、动图像编码方法以及动图像编码程序、动图像解码装置、动图像解码方法以及动图像解码程序_JVC建伍株式会社_202080007421.0

一种鼠标编码器及鼠标_广州南沙中驰电子信息有限公司_202321500749.3

视频相关技术

视频生成方法、视频生成装置和可读存储介质_北京智境云创科技有限公司_202410371281.5

一种基于VoLTE视频客服辅助视频卡片推送方法_广东亿迅科技有限公司_202211697387.1

一种基于视频内容理解的视频增强方法及系统_华南理工大学_202410430364.7

视频解码的方法和装置、视频编码的方法和装置及存储介质_腾讯美国有限责任公司_202310927560.0

基于协同自监督视频表示学习的视频动作识别方法及装置_中国科学院计算技术研究所_202410418093.3

视频文件播放方法、视频文件推送方法及相关产品_行吟信息科技(上海)有限公司_202410290971.8

视频编解码的方法和装置_腾讯美国有限责任公司_201980071555.6

视频处理方法、装置及播放设备_北京字跳网络技术有限公司_202211678257.3

视频编码、解码的方法和装置_腾讯美国有限责任公司_202080062531.7

一种HDMI视频录制器_深圳驰睿视讯科技有限公司_202322810699.5

描述相关技术

一种视频内容描述信息的生成方法和设备_中国科学院上海微系统与信息技术研究所_202110044445.X

基于GPT-4模型的语言描述生成可视化大屏的方法_信弈数(北京)科技有限责任公司_202410370475.3

基于机器学习和统计回归的分解酒店文本描述方法_南京信息工程大学_202410683990.7

一种有向无环图式自动任务流的通用描述语言数据系统_深圳晶泰科技有限公司_202011091614.7

一种融合多粒度多模态的艺术品图像描述生成方法_湖南大学_202210842566.3

基于多引力融合的三维点云高维特征描述方法及系统_中国船舶集团有限公司第七一八研究所_202410296214.1

使用GLTF2场景描述中的扩展来支持视频和音频数据_高通股份有限公司_202080066427.5

电力二次屏柜能力描述系统_中国南方电网有限责任公司_202011072015.0

基于开发辅助的开发证书与描述文件的管理方法及系统_平安科技(深圳)有限公司_201811420393.6

一种基于高动态多层语义编码的视频描述生成方法_电子科技大学_202410327726.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于高动态多层语义编码的视频描述生成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务