恭喜天津理工大学;山东省人工智能研究院;山东省计算中心(国家超级计算济南中心);山东大学;浙江大华技术股份有限公司;哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);合肥工业大学高赞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜天津理工大学;山东省人工智能研究院;山东省计算中心(国家超级计算济南中心);山东大学;浙江大华技术股份有限公司;哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);合肥工业大学申请的专利基于渐进式交互和多模态对齐的视频片段句子定位方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119478794B 。
龙图腾网通过国家知识产权局官网在2025-04-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510051849.X,技术领域涉及:G06V20/40;该发明授权基于渐进式交互和多模态对齐的视频片段句子定位方法是由高赞;杨浩;赵一博;马春杰;聂礼强;吴建龙;朱树磊;金恒;殷俊;汪萌设计研发完成,并于2025-01-14向国家知识产权局提交的专利申请。
本基于渐进式交互和多模态对齐的视频片段句子定位方法在说明书摘要公布了:本发明涉及计算机视觉和自然语言处理技术领域,尤其涉及一种基于渐进式交互和多模态对齐的视频片段句子定位算法。步骤如下:首先将与视频相关的所有查询句子根据该查询句子对应的视频片段在视频中的顺序进行排序后与视频特征和在特征维度进行拼接,再将其经过多模态对齐模块提取视频与查询句子特征各自的模态内信息以及两个模态之间的信息,随后根据与查询句子交互后的视频特征生成多个候选片段,通过分组候选片段交互模块学习候选片段之间的关系,然后通过度量学习缩小对应的候选片段特征与查询句子特征对的差异,最后将所有候选片段特征与单个查询句子特征计算匹配分数,分数高的作为预测结果。本发明可以精准地对视频片段进行定位。
本发明授权基于渐进式交互和多模态对齐的视频片段句子定位方法在权利要求书中公布了:1.一种基于渐进式交互和多模态对齐的视频片段句子定位方法,其特征是,包括以下步骤:S1、确定要进行句子定位的视频和要查询的句子,从视频中提取视频特征,从要查询的句子中提取句子特征;S2、对提取的视频特征和句子特征进行预处理,将视频特征和句子特征转变为指定形状,得到处理后的视频特征和句子特征;S3、对齐视频模态和句子模态的特征,将处理后的视频特征和句子特征在通道维度上进行拼接,再对拼接后的特征在长度维度进行逆操作得到逆序特征,然后将未进行逆操作的正序特征和进行逆操作的逆序特征输入至双分支网络分别挖掘视频模态和句子模态之间的信息,得到多模态序列融合特征;S4、根据多模态序列融合特征生成候选片段组特征;将多模态序列融合特征在时间维度上进行拆分,得到视频特征与该视频相关的所有句子特征,,表示与该视频相关的第个句子特征,然后通过2D-TAN方法对视频特征进行拆分,将视频特征拆分后输入至最大池化操作得到候选片段特征,由候选片段特征组成候选片段组特征,2D-TAN表示二维时域连接网络,是一种用于视频定位的方法,计算过程如下: , , ,其中,表示第个候选片段的特征,表示视频特征拆分后的不同位置的视频特征,表示起始位置的视频特征,表示结束位置的视频特征,表示最大池化操作,表示候选片段的总数,表示候选片段的索引,表示该视频对应的句子数,操作表示在通道维度进行分割;S5、将候选片段组特征通过深度可分离卷积在每个通道内进行视频片段之间信息的学习,然后通过分组卷积从粗到细挖掘每组之间的信息,得到新的候选片段特征;S6、通过对比学习损失函数使视频和句子两个模态的特征在一个公共嵌入空间,完成对视频和句子模态特征的学习;S7、根据候选片段特征得到候选视频片段预测得分,并对预测得分进行约束。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津理工大学;山东省人工智能研究院;山东省计算中心(国家超级计算济南中心);山东大学;浙江大华技术股份有限公司;哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);合肥工业大学,其通讯地址为:300000 天津市西青区宾水西道391号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。