山东大学;青岛鸣涧智能科技有限公司郑艳伟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东大学;青岛鸣涧智能科技有限公司申请的专利基于多模态学习的视觉-文本协同摘要生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119862861B 。
龙图腾网通过国家知识产权局官网在2025-07-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510352173.8,技术领域涉及:G06F40/16;该发明授权基于多模态学习的视觉-文本协同摘要生成方法及系统是由郑艳伟;林美君;金燕;孙雪丹;于东晓设计研发完成,并于2025-03-25向国家知识产权局提交的专利申请。
本基于多模态学习的视觉-文本协同摘要生成方法及系统在说明书摘要公布了:本申请属于自然语言处理交叉领域,具体涉及一种基于多模态学习的视觉‑文本协同摘要生成方法及系统,包括多模态数据接收模块,用于并行接收多模态输入数据,包括文本数据和视觉数据;视觉语义理解模块,采用视觉语义理解模型提取图像的高层语义特征并生成文本描述;语义融合模块,采用基于方向一致性与自适应语义补全的视觉‑文本语义融合方法,将原始文本与生成的图像描述进行语义层面的融合;摘要优化模块,采用多层深度融合的混合神经网络架构对融合特征进行语义重构,生成符合上下文语义和准确表达的摘要文本。优点在于:精准对齐视觉和文本信息,生成高质量摘要,特别适用于新闻报道、会议记录、视频内容分析等需要跨模态信息融合的场景。
本发明授权基于多模态学习的视觉-文本协同摘要生成方法及系统在权利要求书中公布了:1.一种基于多模态学习的视觉-文本协同摘要生成方法,其特征在于,包括以下步骤: S1.接收多模态数据:包括文本数据和视觉数据作为后续摘要生成的基础; S2.视觉语义理解:将视觉数据输入视觉语义理解模型,通过提取视觉特征,识别图像或视频中的关键信息,生成对视觉数据内容的文本描述; 步骤S2中视觉语义理解模型包括视频关键帧识别,通过自适应时空权重融合计算像素区域的重要性权重,识别视频内容的核心变化,去除冗余信息,得到一组具有代表性和语义丰富的关键帧图像: 自适应时空权重融合:在标准时空注意力的基础上,加入动态权重因子,以自适应地调整时间和空间维度的注意力; 时间注意力关注视频序列中不同帧之间的关系,反映帧间的动态变化;时间注意力计算公式如下: ; 空间维度的注意力关注单帧图像内部的区域关系,强调物体的局部与全局结构,计算公式如下: ; 自适应时空权重融合计算公式如下: ; 是时间注意力因子,学习每帧的全局重要性,是空间注意力因子,通过sigmoid函数进行归一化,保证和不会出现负值或者过大、过小的情况; S3.文本与视觉语义理解结合:将步骤S1中的文本数据与步骤S2中生成的图像描述文本或视频解析文本进行有效的语义特征融合,为摘要生成模型提供语义信息; 步骤S3中文本与视觉语义理解结合包括基于动态语义融合的语境补充,基于动态语义融合的语境补充包括关键词对齐、互补性权重计算和动态信息融合; 互补性权重计算:利用自适应对齐算法,计算文本与视觉内容之间的互补性权重,该权重衡量了输入文本与图像描述文本的相对重要性,通过门控机制来计算互补性权重; 动态信息融合:基于互补性权重,融合输入文本与图像描述文本,融合的方式是按比例调整二者的权重,生成一个增强的文本表示,包含了图像与文本信息的结合; S4.摘要生成:将步骤S3中的融合文本输入到摘要生成模型中,通过模型对输入文本进行理解与加工,最终生成符合上下文语义的文本摘要。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东大学;青岛鸣涧智能科技有限公司,其通讯地址为:266200 山东省青岛市即墨区滨海路72号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。