【发明授权】一种基于图像引导视频编辑的文本生成视频方法_南京邮电大学_202410446159.X

导航：龙图腾网> 最新专利技术> 一种基于图像引导视频编辑的文本生成视频方法_南京邮电大学_202410446159.X

申请/专利权人：南京邮电大学

申请日：2024-04-15

公开（公告）日：2024-06-18

公开（公告）号：CN118037898B

主分类号：G06F30/27

分类号：G06F30/27

优先权：

专利状态码：有效-授权

法律状态：2024.06.18#授权;2024.05.31#实质审查的生效;2024.05.14#公开

摘要：本发明提出一种基于图像引导视频编辑的文本生成视频方法，该方法包括：获取生成目标视频的基础文本，利用文本分析模块对基础文本进行多个角度语义分析，生成多维度的文本特征向量；利用文本特征向量和微调的文本生成图像模型生成基础图像；利用文本特征向量和现有的文本生成视频模型生成基础视频；将基础图像、基础视频以及基础文本作为输入，通过图像和文本引导视频编辑，生成目标视频。本发明同时利用文本生成图像高质量高分辨率的优点以及文本生成视频优秀的时间建模，通过高质量的图像和文本引导视频编辑，实现文本生成高质量高分辨率视频。

主权项：1.一种基于图像引导视频编辑的文本生成视频方法，其特征在于，该方法包括如下步骤：S101，获取生成目标视频的基础文本，利用文本分析模块对基础文本进行多个角度语义分析，生成多维度文本特征向量，表示文本特征向量的总维度数；S102，利用文本特征向量和调整后的文本生成图像模型StableDiffusion生成基础图像；S103，利用文本特征向量和文本生成视频模型StableVideoDiffusion生成基础视频；S104，将基础图像、基础视频以及基础文本作为输入，通过图像和文本引导视频编辑以生成目标视频；S104的具体方法如下：S201，对基础视频进行拆帧，将视频转换成视频序列，表示视频总帧数，表示上采样前图像横轴的像素总数，表示上采样前图像纵轴的像素总数，将视频帧序列上采样为视频帧图像序列，M表示上采样后图像横轴的像素总数，N表示表示上采样后图像纵轴的像素总数；S202，将基础图像分割成基础前景图像和基础背景图像，将视频帧图像序列分割成视频帧前景图像序列和视频帧背景图像序列；S203，利用视频帧前景图像序列和基础前景图像生成辅助前景图像序列；S204，利用视频帧背景图像序列和基础背景图像生成辅助背景图像序列；S205，将辅助前景图像序列和辅助背景图像序列融合渲染，获得辅助视频帧图像序列；S206，利用基础文本判定视频变化幅度r，对辅助视频帧图像序列进行补帧以生成最终目标视频；步骤S201中，采用的上采样方法如下：上采样后的视频帧图像的部分像素值，通过上采样前的视频帧的像素值获得，，计算公式如下：；；；；；；其中；其中，表示上采样倍率，表示坐标为的上采样前的像素值，表示坐标为上采样后的像素值；步骤S202中，对基础图像和视频帧图像分割前进行图像增强预处理的方法如下：（1）针对的图像矩阵，分别计算出横向和纵向两个方向的类差分矩阵和，其矩阵值分别为原图像矩阵像素值与横向或纵向相邻像素值之差的绝对值；（2）计算两个方向的像素增强，计算公式如下：；其中，设置的窗口大小为，表示对应的权重系数，和表示各个方位的权重向量，和分别表示纵向和横向增强的像素值，和表示矩阵和横坐标从到，纵坐标从到处的值形成的子矩阵；（3）将增强像素与原图像叠加生成预处理图像，计算公式如下：；其中，表示坐标叠加后的像素值，表示坐标叠加前的像素值，表示原图、横向以及纵向增强的权重系数；步骤S203中的具体方法如下：对视频帧前景图像序列和基础前景图像进行特征提取，包括关键点定位和轮廓提取，在保留视频帧前景图像序列内容的位置、轮廓、结构基础上，通过扩散模型将其替换成基础前景图像的内容，生成辅助前景图像序列；步骤S204中的具体方法如下：对视频帧背景图像序列和基础背景图像进行特征提取，包括关键点定位和风格提取，通过扩散模型将视频帧背景图像序列和基础背景图像逐一进行风格融合和图像融合，生成辅助背景图像序列；步骤S206中，利用基础文本判定视频变化幅度r，对辅助视频帧图像序列进行补帧，生成最终目标视频，具体计算方法如下：（1）计算相邻图像相似度的函数如下：；其中，表示图像和之间的相似度，和表示两个图像的均值，和表示两个图像的标准差，和表示稳定系数，；（2）通过基础文本的关键词检索，计算每个相同关键词视频的帧间相似度：；其中，表示视频的帧间平均相似度，表示视频第t帧图像和第t+1帧图像之间的相似度，T表示视频总帧数；（3）计算所有相同关键词视频的平均的帧间平均相似度：；其中，表示所有相同关键词视频的平均的帧间平均相似度，表示视频的帧间平均相似度，表示对应视频的权重，表示视频总数；（4）计算变化幅度的函数如下：；其中，表示相同关键词视频的帧间平均相似度最大值；（5）根据变化幅度r设置帧间相似度差异阈值为，其中，表示可设置的差异系数，，若相邻图像帧之间的相似度差异大于阈值，则通过扩散概率模型预测生成一系列图像帧，完成补帧操作生成最终目标视频。

全文数据：

权利要求：

百度查询：南京邮电大学一种基于图像引导视频编辑的文本生成视频方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：针对根据亮度预测色度的预测选择下采样滤波器_腾讯美国有限责任公司_202280075374.2

下一篇：一种悬索桥用超硬复合板及其制备工艺_德阳天元重工股份有限公司_202410240910.0

相关技术

针对根据亮度预测色度的预测选择下采样滤波器_腾讯美国有限责任公司_202280075374.2

一种悬索桥用超硬复合板及其制备工艺_德阳天元重工股份有限公司_202410240910.0

乙烷混合液烃萃取精馏脱碳系统及方法_长庆工程设计有限公司_202211655444.X

一种在Mesh网络中无缝漫游的方法及系统_广州通则康威科技股份有限公司_202410635119.X

显示装置和用于制造该显示装置的方法_三星显示有限公司_202311264824.5

设备的设计图生成方法和计算设备_超聚变数字技术有限公司_202410269408.2

升降销硬止动件_朗姆研究公司_202280073752.3

光学系统和包括该光学系统的相机模块_LG伊诺特有限公司_202280073239.4

一种智能拍背装置_中日友好医院(中日友好临床医学研究所)_202410324763.5

数据处理方法、装置、电子设备及存储介质_小红书科技有限公司_202311645889.4

用于提供更新的机器学习算法的系统和方法_西门子医疗有限公司_202311623232.8

密钥协商方法、装置、相关设备和计算机程序产品_中国电信股份有限公司_202410642634.0

编辑相关技术

内容编辑方法、装置、终端设备及存储介质_OPPO广东移动通信有限公司_202211632654.7

编辑控制方法、装置、设备及存储介质_亿度慧达教育科技(北京)有限公司_202110265945.6

文本引导图像连续编辑方法、装置、设备及可读存储介质_武汉大学_202410485080.8

编辑PDF文档的方法、装置、计算器设备及存储介质_凯钿行动科技股份有限公司_202211649226.5

Kabatiella bupleuri菌株内源U6启动子及基因编辑载体_天津大学浙江绍兴研究院_202211645029.6

基于双分支网络的三维表情动画编辑方法及系统_山东财经大学_202310967179.7

一种线粒体定位信号序列及其构建的线粒体基因编辑系统与应用_浙江大学_202410455433.X

无代码编辑控制的数字孪生系统及计算机存储介质_北京万象原生科技有限公司_202310629361.1

一种非侵入式动态编辑JVM参数的方法、系统及设备_四川新网银行股份有限公司_202111583862.8

模型的编辑、构建方法及相关设备，计算机存储介质_北京国双科技有限公司_201911383064.3

视频相关技术

视频编码方法_杭州当虹科技股份有限公司_202110598168.7

视频图像控制装置、视频控制器及音视频一体机_珠海视熙科技有限公司_202320151868.6

视频播放方法及装置_维沃移动通信有限公司_202210045065.2

在视频编译系统中使用残差信息的视频解码方法及其设备_LG电子株式会社_202080018152.8

视频抽帧方法、分布式视频分析方法及系统_浪潮通信信息系统有限公司_202410210395.1

视频封面的生成方法、视频发布方法及相关设备_广州虎牙科技有限公司_202210376326.9

基于视频监控和视频会议融合的智能系统_深圳市炫本电子有限公司_202210768285.8

视频解码方法、视频编码设备以及存储比特流的方法_三星电子株式会社_202410344004.5

视频显示方法及装置、控制器、视频显示系统_北京电科智芯科技有限公司_202410476209.9

用于视频解码的方法和设备以及用于视频编码的方法和设备_三星电子株式会社_202410338558.4

文本相关技术

一种文本选中方法_荣耀终端有限公司_202410188658.3

多行文本识别方法、装置、设备及介质_深圳市星桐科技有限公司_202210377461.5

自由文本标签化的方法及装置_北京赛迈特锐医疗科技有限公司_202110438360.X

一种基于文本驱动的数据增强方法_北京交通大学_202410218732.1

文本匹配方法及装置、存储介质、终端_华院计算技术(上海)股份有限公司_202210170758.4

文本显示方法、电子设备及存储介质_华为技术有限公司_202211632185.9

文本处理方法、装置、设备及存储介质_北京百度网讯科技有限公司_202311587234.6

文本配图生成方法及相关产品_书行科技(北京)有限公司_202311734988.X

一种文本数据搜索方法及系统_北京航天情报与信息研究所_202410274634.X

文本生成方法、装置、设备及存储介质_杭州网易云音乐科技有限公司_202410303012.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种基于图像引导视频编辑的文本生成视频方法_南京邮电大学_202410446159.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务