首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于一致片段选择的视听事件定位方法 

申请/专利权人:北京邮电大学

申请日:2023-03-14

公开(公告)日:2024-06-25

公开(公告)号:CN116310975B

主分类号:G06V20/40

分类号:G06V20/40;G06F18/25;G06V10/82;G06N3/0464;G06N3/045;G06N3/09;G10L21/02

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2023.07.11#实质审查的生效;2023.06.23#公开

摘要:本发明提供了一种基于一致片段选择的视听事件定位方法。该方法包括:从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征;将初步的视觉特征和听觉特征通过双向引导的共同注意力,得到增强后的视觉特征和听觉特征;从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对;对语义一致的视听片段对进行视听特征融合,得到视听融合特征;根据视听融合特征对待进行识别的视听事件进行识别,获取待进行识别的视听事件的事件定位信息。本发明方法通过一致片段选择模块计算两两视听片段的关联关系,对于关联得分高的视听对有着一致的语义,将其保留,并对保留下来的视听对进行全局建模,获取整个视频的语义信息。

主权项:1.一种基于一致片段选择的视听事件定位方法,其特征在于,包括:从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征;将初步的视觉特征和听觉特征通过双向引导的共同注意力,得到增强后的视觉特征和听觉特征;从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对;对所述语义一致的视听片段对进行视听特征融合,得到视听融合特征;根据所述视听融合特征对所述待进行识别的视听事件进行识别,获取所述待进行识别的视听事件的事件定位信息;所述的将初步的视觉特征和听觉特征通过双向引导的共同注意力,得到增强后的视觉特征和听觉特征,包括:利用关系增强的空间通道注意力对初步的视觉特征和听觉特征的通道信息进行1-D多模态分解双线性池化操作,dv表示视觉特征的通道维度,H和W分别表示视觉特征的高和宽,da表示听觉特征的通道维度,操作过程如下: 其中,Dropout操作在训练阶段随机的将一些输入元素变为0,SumPooling1操作对两种1-D特征进行融合,k为池化因子系数;Φ和Ψ表示线性映射;gap操作将空间尺寸压缩为1;⊙表示逐元素相乘;sign是符号函数;上述操作过程输出的通道注意力权重d0=dv,使用残差连接得到通道增强的视觉特征 expand操作将的维度扩展至d0×H×W,计算空间注意力权重计算过程如下: 其中,SumPooling3对3-D特征进行池化因子系数为k的线性融合;得到关系增强的视觉特征 其中,reshape操作将空间特征H×W转化为HW,W1为线性层,σ为激活函数;利用视觉引导的声音注意力利用通道注意力权重对声音特征进行增强,计算过程如下: 其中W2为线性层,输出通道增强的听觉特征所述的从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对,包括:对于每个时间步的增强后的视觉特征和听觉特征,采用相关系数来表示两种特征的关联程度: 其中,协方差方差将相关数记为ρt,t,得到每个时刻视听特征的互相关矩阵 通过设置阈值ω得到由高相关性视听片段构成的索引矩阵和 其中,Softmaxr表示逐行的Softmax操作,1是指示函数,∈是正数,利用索引矩阵和来保留关联得分高的视听对,摒弃关联得分低的视听对,利用线性融合的方法获得语义一致的视觉特征vcc和听觉特征acc,其表示为: 其中,λ是线性融合系数,输出的

全文数据:

权利要求:

百度查询: 北京邮电大学 一种基于一致片段选择的视听事件定位方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。