一种基于一致片段选择的视听事件定位方法

导航：龙图腾网> 最新专利技术> 一种基于一致片段选择的视听事件定位方法

申请/专利权人：北京邮电大学

申请日：2023-03-14

公开（公告）日：2024-06-25

公开（公告）号：CN116310975B

主分类号：G06V20/40

分类号：G06V20/40;G06F18/25;G06V10/82;G06N3/0464;G06N3/045;G06N3/09;G10L21/02

优先权：

专利状态码：有效-授权

法律状态：2024.06.25#授权;2023.07.11#实质审查的生效;2023.06.23#公开

摘要：本发明提供了一种基于一致片段选择的视听事件定位方法。该方法包括：从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征；将初步的视觉特征和听觉特征通过双向引导的共同注意力，得到增强后的视觉特征和听觉特征；从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对；对语义一致的视听片段对进行视听特征融合，得到视听融合特征；根据视听融合特征对待进行识别的视听事件进行识别，获取待进行识别的视听事件的事件定位信息。本发明方法通过一致片段选择模块计算两两视听片段的关联关系，对于关联得分高的视听对有着一致的语义，将其保留，并对保留下来的视听对进行全局建模，获取整个视频的语义信息。

主权项：1.一种基于一致片段选择的视听事件定位方法，其特征在于，包括：从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征；将初步的视觉特征和听觉特征通过双向引导的共同注意力，得到增强后的视觉特征和听觉特征；从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对；对所述语义一致的视听片段对进行视听特征融合，得到视听融合特征；根据所述视听融合特征对所述待进行识别的视听事件进行识别，获取所述待进行识别的视听事件的事件定位信息；所述的将初步的视觉特征和听觉特征通过双向引导的共同注意力，得到增强后的视觉特征和听觉特征，包括：利用关系增强的空间通道注意力对初步的视觉特征和听觉特征的通道信息进行1-D多模态分解双线性池化操作，dv表示视觉特征的通道维度，H和W分别表示视觉特征的高和宽，da表示听觉特征的通道维度，操作过程如下：其中，Dropout操作在训练阶段随机的将一些输入元素变为0，SumPooling1操作对两种1-D特征进行融合，k为池化因子系数；Φ和Ψ表示线性映射；gap操作将空间尺寸压缩为1；⊙表示逐元素相乘；sign是符号函数；上述操作过程输出的通道注意力权重d0＝dv，使用残差连接得到通道增强的视觉特征 expand操作将的维度扩展至d0×H×W，计算空间注意力权重计算过程如下：其中，SumPooling3对3-D特征进行池化因子系数为k的线性融合；得到关系增强的视觉特征其中，reshape操作将空间特征H×W转化为HW，W1为线性层，σ为激活函数；利用视觉引导的声音注意力利用通道注意力权重对声音特征进行增强，计算过程如下：其中W2为线性层，输出通道增强的听觉特征所述的从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对，包括：对于每个时间步的增强后的视觉特征和听觉特征，采用相关系数来表示两种特征的关联程度：其中，协方差方差将相关数记为ρt,t，得到每个时刻视听特征的互相关矩阵通过设置阈值ω得到由高相关性视听片段构成的索引矩阵和其中，Softmaxr表示逐行的Softmax操作，1是指示函数，∈是正数，利用索引矩阵和来保留关联得分高的视听对，摒弃关联得分低的视听对，利用线性融合的方法获得语义一致的视觉特征vcc和听觉特征acc，其表示为：其中，λ是线性融合系数，输出的

全文数据：

权利要求：

百度查询：北京邮电大学一种基于一致片段选择的视听事件定位方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种锂电池外壳冲压设备

下一篇：一种便于移动的展开式箱房

相关技术

一种锂电池外壳冲压设备

一种便于移动的展开式箱房

一种两级压缩螺杆式空压机壳体

一种低温拉伸实验箱

一种用于治疗小儿肌性斜颈的固定器

一种护理液调和储存罐

一种移动式自填充胶枪

一种地垫

一种金属管件抛光打磨装置

一种可快速拼接的安装架

一种改良聚乙烯颗粒物挤出成型设备

一种钻机润滑专用压缩机

选择相关技术

小区选择方法、装置、用户设备及存储介质_RealMe重庆移动通信有限公司_202211686431.9

一种裂解汽油馏分的选择加氢方法_中国石油天然气股份有限公司_202211677440.1

区域选择方法、装置、电子装置和存储介质_上海联影医疗科技股份有限公司_202211695828.4

一种碳五馏分选择加氢方法_中国石油天然气股份有限公司_202011159169.3

选择性铺料装置和铺料方法_源秩科技(上海)有限公司_202110576857.8

一种全内径选择固井装置、辅助附件及方法和相关应用_中国石油天然气股份有限公司_202211693056.0

一种多路模拟“或”输入最大值选择电路_北京大华无线电仪器有限责任公司_202323158172.5

一种基于脑功能网络分析的导联选择方法_大连大学_202410364549.2

选择编辑方法、装置、电子设备及计算机可读存储介质_创新先进技术有限公司_202210501285.1

一种选择透过性抗污染特种分离膜的制备方法_江苏泷膜科技有限公司_202410271530.3

视听相关技术

基于自监督学习的视听语音识别方法、设备和存储介质_长春大学_202410627154.7

一种基于一致片段选择的视听事件定位方法_北京邮电大学_202310241056.5

一种可视听剂量的胰岛素笔_新影医疗科技(江苏)有限公司_202322693939.8

一种展览会议用视听设备_湖南钰镁塬文化科技有限公司_202322426097.X

识别具有特定音频内容的视听媒体项_谷歌有限责任公司_202410179440.1

媒体视听信息流监测监管数据样本及其标注方法_上海科江电子信息技术有限公司_202011351922.9

识别具有特定音频内容的视听媒体项_谷歌有限责任公司_202410179493.3

内容视听方法及其使用的便携式信息终端_麦克赛尔株式会社_201780091646.7

一种基于视听多模态数据融合的抑郁症评估方法及设备_合肥工业大学_202410321485.8

共享图像处理程序的视听系统及其视频处理方法_瑞昱半导体股份有限公司_202211555599.6

事件相关技术

事件复核方法、装置、设备及存储介质_杭州海康威视系统技术有限公司_202410694078.1

事件提醒方法、装置、可穿戴设备及存储介质_OPPO广东移动通信有限公司_202110269860.5

基于目标检测的事件监测方法及装置_中国工商银行股份有限公司_202410345168.X

一种事件聚档管理方法_全景智联(武汉)科技有限公司_202310325268.1

用于处理动态事件的方法和装置_滴图(北京)科技有限公司_202211716285.X

一种基于事件演化阶段的时间线摘要方法_西南科技大学_202410346674.0

事件化数据的处理方法及装置、电子设备、存储介质_中国银行股份有限公司_202111368909.9

电容式触摸传感器、包括其的制品、检测触摸事件的方法_尚科纺织企业工业及贸易公司_202010207375.0

基于BiLSTM结合多头注意力的中文重叠事件抽取系统_重庆邮电大学_202210656832.3

一种安全事件处理方法、装置及电子设备_绿盟科技集团股份有限公司_202110958209.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于一致片段选择的视听事件定位方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务