恭喜中科南京人工智能创新研究院李成华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中科南京人工智能创新研究院申请的专利基于多模态融合的可控视频生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119091362B 。
龙图腾网通过国家知识产权局官网在2025-03-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411580043.1,技术领域涉及:G06V20/40;该发明授权基于多模态融合的可控视频生成方法及系统是由李成华;周生宵设计研发完成,并于2024-11-07向国家知识产权局提交的专利申请。
本基于多模态融合的可控视频生成方法及系统在说明书摘要公布了:本发明公开了一种基于多模态融合的可控视频生成方法及系统,该方法包括获取多模态数据并对其进行预处理;提取特征向量并对其进行规范化处理,组合形成多模态特征矩阵;将多模态特征矩阵转换为特征序列;对特征序列中的各模态特征进行动态权重分配;将加权后的特征序列进行多层次深度融合,得到融合特征表示;将融合特征表示输入到多尺度时空注意力机制中,得到增强特征表示;依序使用空间注意力、时间注意力和交叉注意力模块进行处理,得到全局增强特征表示,生成多帧隐空间表示;解码生成高分辨率视频帧并进行后处理,得到最终的高质量视频序列。本发明保持了视频序列的时空连贯性,生成质量更高、可控性更强的视频内容。
本发明授权基于多模态融合的可控视频生成方法及系统在权利要求书中公布了:1.基于多模态融合的可控视频生成方法,其特征在于,包括如下步骤:S1、获取多模态数据并对其进行预处理;基于预处理后的多模态数据,使用预训练的编码器网络提取特征向量;对特征向量进行规范化处理,将规范化后的特征向量组合形成多模态特征矩阵;其中多模态数据包括文本、RGB图像、音频、红外图像、深度图像、mask图、边缘算子图、点云图和姿态图数据;S2、使用预定义的分词器将多模态特征矩阵转换为特征序列,并添加模态标识符和位置编码信息;应用上下文感知权重调节器对特征序列中的各模态特征进行动态权重分配,得到加权后的特征序列;将加权后的特征序列输入到层级自组织融合网络中进行多层次深度融合,得到融合特征表示;S3、将融合特征表示输入到多尺度时空注意力机制中,得到增强特征表示;基于增强特征表示,依序使用空间注意力模块、时间注意力模块和交叉注意力模块进行处理,得到全局增强特征表示;基于全局增强特征表示,使用动态隐空间重构器生成多帧隐空间表示;通过自适应分辨率生成网络解码多帧隐空间表示,生成高分辨率视频帧;对高分辨率视频帧进行后处理,得到最终的高质量视频序列。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中科南京人工智能创新研究院,其通讯地址为:211135 江苏省南京市江宁区创研路266号麒麟人工智能产业园3号楼3楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。