恭喜江西财经大学毛阿敏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜江西财经大学申请的专利基于协同注意力机制的视听显著性预测方法与系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119988894B 。
龙图腾网通过国家知识产权局官网在2025-06-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510470452.4,技术领域涉及:G06F18/20;该发明授权基于协同注意力机制的视听显著性预测方法与系统是由毛阿敏;鄢杰斌;方玉明;蔡超;刘振宇设计研发完成,并于2025-04-15向国家知识产权局提交的专利申请。
本基于协同注意力机制的视听显著性预测方法与系统在说明书摘要公布了:本发明提出一种基于协同注意力机制的视听显著性预测方法与系统,该方法包括:获得预处理后的帧图像和处理后的音频信号;将预处理后的帧图像通过视觉编码进行特征提取,得到高层视觉特征;基于处理后的音频信号得到初步的音频特征;将初步的音频特征通过音频时序提取器进行处理,得到音频显著特征;通过高层视觉特征和音频显著特征得到视觉‑音频融合特征和音频‑视觉融合特征;基于视觉‑音频融合特征和音频‑视觉融合特征得到对齐融合后的视听特征;基于对齐融合后的视听特征得到显著预测图。本发明采用逐帧策略融合视听特征,在时空上精确对齐了音视频特征,且不再依赖于视频数据集的预训练,最终准确的定位到显著目标。
本发明授权基于协同注意力机制的视听显著性预测方法与系统在权利要求书中公布了:1.一种基于协同注意力机制的视听显著性预测方法,其特征在于,所述方法包括如下步骤: 步骤1、获取视频中的每一帧图像,对每一帧图像进行预处理,得到预处理后的帧图像; 对音频信号进行预处理,得到处理后的音频信号; 步骤2、将预处理后的帧图像通过视觉编码进行特征提取,得到四个尺度的视觉特征; 将处理后的音频信号通过音频编码进行音频特征提取,得到初步的音频特征; 将初步的音频特征通过音频时序提取器进行处理,得到音频显著特征; 步骤3、将四个尺度的视觉特征中的高层视觉特征和音频显著特征通过视觉感知引导器处理得到视觉-音频融合特征; 将高层视觉特征和音频显著特征通过音频感知引导器处理,得到音频-视觉融合特征; 步骤4、将视觉-音频融合特征和音频-视觉融合特征依次进行时空对抗学习和特征融合,以得到对齐融合后的视听特征; 步骤5、将对齐融合后的视听特征经过多层的解码器处理,得到显著预测图; 在所述步骤4中,将视觉-音频融合特征和音频-视觉融合特征依次进行时空对抗学习和特征融合,以得到对齐融合后的视听特征,其中,通过视觉-音频融合特征和音频-视觉融合特征构建音频-视觉对称损失,对应过程存在的关系式为: ; 其中,表示视觉-音频对称损失函数,表示计算特征之间的相似性,表示停止梯度操作,表示L2正则化,表示第帧的音频-视觉融合特征,表示第帧的视觉-音频融合特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江西财经大学,其通讯地址为:330000 江西省南昌市经济技术开发区双港东大街169号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。