首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于图像引导视频编辑的文本生成视频方法_南京邮电大学_202410446159.X 

申请/专利权人:南京邮电大学

申请日:2024-04-15

公开(公告)日:2024-06-18

公开(公告)号:CN118037898B

主分类号:G06F30/27

分类号:G06F30/27

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2024.05.31#实质审查的生效;2024.05.14#公开

摘要:本发明提出一种基于图像引导视频编辑的文本生成视频方法,该方法包括:获取生成目标视频的基础文本,利用文本分析模块对基础文本进行多个角度语义分析,生成多维度的文本特征向量;利用文本特征向量和微调的文本生成图像模型生成基础图像;利用文本特征向量和现有的文本生成视频模型生成基础视频;将基础图像、基础视频以及基础文本作为输入,通过图像和文本引导视频编辑,生成目标视频。本发明同时利用文本生成图像高质量高分辨率的优点以及文本生成视频优秀的时间建模,通过高质量的图像和文本引导视频编辑,实现文本生成高质量高分辨率视频。

主权项:1.一种基于图像引导视频编辑的文本生成视频方法,其特征在于,该方法包括如下步骤:S101,获取生成目标视频的基础文本,利用文本分析模块对基础文本进行多个角度语义分析,生成多维度文本特征向量,表示文本特征向量的总维度数;S102,利用文本特征向量和调整后的文本生成图像模型StableDiffusion生成基础图像;S103,利用文本特征向量和文本生成视频模型StableVideoDiffusion生成基础视频;S104,将基础图像、基础视频以及基础文本作为输入,通过图像和文本引导视频编辑以生成目标视频;S104的具体方法如下:S201,对基础视频进行拆帧,将视频转换成视频序列,表示视频总帧数,表示上采样前图像横轴的像素总数,表示上采样前图像纵轴的像素总数,将视频帧序列上采样为视频帧图像序列,M表示上采样后图像横轴的像素总数,N表示表示上采样后图像纵轴的像素总数;S202,将基础图像分割成基础前景图像和基础背景图像,将视频帧图像序列分割成视频帧前景图像序列和视频帧背景图像序列;S203,利用视频帧前景图像序列和基础前景图像生成辅助前景图像序列;S204,利用视频帧背景图像序列和基础背景图像生成辅助背景图像序列;S205,将辅助前景图像序列和辅助背景图像序列融合渲染,获得辅助视频帧图像序列;S206,利用基础文本判定视频变化幅度r,对辅助视频帧图像序列进行补帧以生成最终目标视频;步骤S201中,采用的上采样方法如下:上采样后的视频帧图像的部分像素值,通过上采样前的视频帧的像素值获得,,计算公式如下: ; ; ; ; ; ;其中 ;其中,表示上采样倍率,表示坐标为的上采样前的像素值,表示坐标为上采样后的像素值;步骤S202中,对基础图像和视频帧图像分割前进行图像增强预处理的方法如下:(1)针对的图像矩阵,分别计算出横向和纵向两个方向的类差分矩阵和,其矩阵值分别为原图像矩阵像素值与横向或纵向相邻像素值之差的绝对值;(2)计算两个方向的像素增强,计算公式如下: ;其中,设置的窗口大小为,表示对应的权重系数,和表示各个方位的权重向量,和分别表示纵向和横向增强的像素值,和表示矩阵和横坐标从到,纵坐标从到处的值形成的子矩阵;(3)将增强像素与原图像叠加生成预处理图像,计算公式如下: ;其中,表示坐标叠加后的像素值,表示坐标叠加前的像素值,表示原图、横向以及纵向增强的权重系数;步骤S203中的具体方法如下:对视频帧前景图像序列和基础前景图像进行特征提取,包括关键点定位和轮廓提取,在保留视频帧前景图像序列内容的位置、轮廓、结构基础上,通过扩散模型将其替换成基础前景图像的内容,生成辅助前景图像序列;步骤S204中的具体方法如下:对视频帧背景图像序列和基础背景图像进行特征提取,包括关键点定位和风格提取,通过扩散模型将视频帧背景图像序列和基础背景图像逐一进行风格融合和图像融合,生成辅助背景图像序列;步骤S206中,利用基础文本判定视频变化幅度r,对辅助视频帧图像序列进行补帧,生成最终目标视频,具体计算方法如下:(1)计算相邻图像相似度的函数如下: ;其中,表示图像和之间的相似度,和表示两个图像的均值,和表示两个图像的标准差,和表示稳定系数,;(2)通过基础文本的关键词检索,计算每个相同关键词视频的帧间相似度: ;其中,表示视频的帧间平均相似度,表示视频第t帧图像和第t+1帧图像之间的相似度,T表示视频总帧数;(3)计算所有相同关键词视频的平均的帧间平均相似度: ;其中,表示所有相同关键词视频的平均的帧间平均相似度,表示视频的帧间平均相似度,表示对应视频的权重,表示视频总数;(4)计算变化幅度的函数如下: ;其中,表示相同关键词视频的帧间平均相似度最大值;(5)根据变化幅度r设置帧间相似度差异阈值为,其中,表示可设置的差异系数,,若相邻图像帧之间的相似度差异大于阈值,则通过扩散概率模型预测生成一系列图像帧,完成补帧操作生成最终目标视频。

全文数据:

权利要求:

百度查询: 南京邮电大学 一种基于图像引导视频编辑的文本生成视频方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。