恭喜嘉兴大学;浙江工企信息技术股份有限公司李永刚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜嘉兴大学;浙江工企信息技术股份有限公司申请的专利一种基于多模态表示的密集视频事件描述方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119229245B 。
龙图腾网通过国家知识产权局官网在2025-05-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411220180.4,技术领域涉及:G06V10/80;该发明授权一种基于多模态表示的密集视频事件描述方法是由李永刚;方豪杰;张缪春;徐子玮;徐海宝;刘艳梅设计研发完成,并于2024-09-02向国家知识产权局提交的专利申请。
本一种基于多模态表示的密集视频事件描述方法在说明书摘要公布了:本发明公开了一种基于多模态表示的密集视频事件描述方法,该方法包括:使用多模态特征融合编码器获取编码后的视觉特征、音频特征和模态信息共享特征;通过提案生成器获取最终生成预测结果;通过描述生成器获取最终描述预测结果;计算对比损失和KL散度损失函数,采用反向传播法更新多模态特征融合编码器和提案生成器的网络参数。本发明通过引入模态信息共享特征,将不同模态的特征映射到同一特征空间,进行特征信息交互、对齐,缓解异构模态之间持续存在的模态差距;通过在单独模态特征和模态信息共享特征中引入对比损失,最大程度丰富了特征中上下文语义信息,避免不同模态特征映射到同一特征空间时语义信息损失;提升了事件描述生成的性能。
本发明授权一种基于多模态表示的密集视频事件描述方法在权利要求书中公布了:1.一种基于多模态表示的密集视频事件描述方法,其特征在于,包括以下步骤:1通过预训练的视觉特征提取网络I3D提取视频数据集的初始视觉特征,通过预训练的音频特征提取网络VGGish提取视频数据集的初始音频特征,并使用多模态特征融合编码器获取编码后的视觉特征、音频特征和模态信息共享特征;其中,所述多模态特征融合编码器包括线性层、自注意力机制、交叉注意力机制以及全连接层;2将编码后的音频特征、视觉特征送入提案生成器,依次经过提案生成器的第一层并行提案头、提案特征交互层、第二层并行提案头和提案对象池,最终从提案对象池中选择置信度最高的K个提案作为最终生成预测结果;其中,所述第一层并行提案头包括多个并行的提案头,所述提案特征交互层包括音频特征提案池和视觉特征提案池,所述第二层并行提案头包括多个并行的提案头;3将编码后的音频特征、视觉特征和模态信息共享特征送入描述生成器,得到最终描述预测结果;其中,所述描述生成器包括音频特征加法融合块、视觉特征加法融合块和前馈层,所述音频特征加法融合块包括自注意力机制和交叉注意力机制,所述视觉特征加法融合块包括自注意力机制和交叉注意力机制,所述前馈层包括全连接层和softmax函数;4基于编码后的视觉特征、音频特征和模态信息共享特征计算对比损失,基于最终生成预测结果和最终描述预测结果计算KL散度损失函数,以最小化对比损失和KL散度损失函数为优化目标,采用反向传播法更新多模态特征融合编码器和提案生成器的网络参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人嘉兴大学;浙江工企信息技术股份有限公司,其通讯地址为:314001 浙江省嘉兴市广穹路899号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。