首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种文本生成电影视频片段的方法、系统和设备_西南大学_202311430792.1 

申请/专利权人:西南大学

申请日:2023-10-31

公开(公告)日:2024-05-24

公开(公告)号:CN117478978B

主分类号:H04N21/8549

分类号:H04N21/8549;G06F40/289;G06F40/30;G06F40/216;G06F40/151;G06T3/4053;G06N3/0464;G06V10/74;G06V10/82;G06V10/26;G06N3/045;G06N3/0475;G06N3/094;H04N21/845;H04N21/2343;H04N21/4402

优先权:

专利状态码:有效-授权

法律状态:2024.05.24#授权;2024.02.20#实质审查的生效;2024.01.30#公开

摘要:本发明提出了一种文本生成电影视频片段的方法、系统和设备。所述方法包括:连接到服务器的客户端电脑通过输入文字来生成电影视频片段。生成过程涉及一个处理模型,该模型可以根据文本语义生成与之匹配的目标片段的初始帧。在处理模型中,初始帧会接受注意力训练,以使生成的图像与动作相匹配。模型还会生成电影视频片段序列的图像,通过插值网络提高每秒帧数,使用超分辨率网络提升图像的像素和线条精度,最终得到连贯且高精度的电影视频片段。

主权项:1.一种文本生成电影视频片段的方法,其特征在于,包括以下步骤:S1,服务器将接收到的输入内容数据转换为文本信息,得到描述文本;所述输入内容数据包括:数字、文字、图像、音频、视频之一或者任意组合;S2,将描述文本依次经过数据预处理、语义分割模型和扩散模型,得到与文本语义匹配的电影视频初始帧;所述数据预处理包括:将文本数据进行分词、编码操作;并对分词后的文本数据,提取文本数据中的关键词:S01,统计分词的类别、词频以及其情感得分,并筛选出关键词;情感得分的计算公式如下:scoree,i=δiWordi+ρi-μ 其中δi为第i个词的权重;ρi为第i个词的调整系数;Wordi为词级情感指数;L表示词的总数量;max表示取最大值;关键词计算公式如下:KEY=α×scoree+β×FRE+γ×FR其中α、β、γ分别表示词的类别权重、词频权重以及其情感得分权重;scoree表示词的情感得分;FRE表示词的类别得分;FR表示词的词频次数;按照词的得分进行排名,选择前K个词作为关键词;所述语义分割模型将文本中的语义信息与图像中的像素进行对应,语义分割模型的输入是文本数据,输出是对应图像的语义分割结果;语义分割模型的损失函数为交叉熵损失函数;所述扩散模型对语义分割结果进行填充和修正,扩散模型的输入是语义分割结果,输出是生成的图像;其目标表示为:Goal=argminGmaxDLG,D其中G表示生成器;D表示判别器;arg表示反正切函数;minG表示最小化生成器的损失函数;maxD表示最大化判别器的损失函数;L,是对抗损失函数;S3,对初始帧进行注意力训练,将生成的图像与动作相匹配,得到初始的电影视频片段;注意力训练包括时间约束模块和空间约束模块;S3-1,时间约束模块:在时间维度上对序列图像进行生成并约束,具体为将初始帧依次传入注意力卷积层、池化层、自注意力层、交叉注意力层、前馈层;首先通过将初始帧作为中间特征值,进行重复操作,生成电影视频片段序列图像;然后利用注意力机制将文本序列中的每个时间步与生成的图像序列中的对应帧进行匹配;具体通过时间注意力层实现,时间注意力层的计算公式为: 其中at,i表示第t个时间步的第j帧的匹配分数;ht表示第t个时间步的文本特征向量;hj表示图像序列中的第j帧的特征向量; T为转置符号;W、Wv是学习的矩阵参数;n表示图像序列的总帧数;y1i为通过时间注意力层第i个元素的输出向量;S3-2,空间约束模块:在空间维度上对序列图像进行生成并约束;基于初始帧,通过注意力训练将序列图像与文本中的动词进行匹配,生成多张与初始帧关联的电影视频片段序列图像;首先,对时间约束模块中前馈层输出的图像序列进行输入处理,即将原始文本分词并进行词性标注,提取其中的动词作为关键帧;然后提取图像特征,具体是使用预训练的视觉特征提取器提取每个关键帧的特征向量,并使用自然语言处理模型提取每个动词的文本特征向量;然后确定图像中物体位置关系,再确定图像帧中动词对齐的部分作为键值特征,最后基于时间约束模块,在空间中对下一帧画面进行扩散处理,对电影视频片段序列图像生成结果进行约束,输出图像特征和视频;在每个时间步中,将生成的图像划分为一些区域,并把它们与原始文本中的关键词或对象相匹配;所述匹配是通过空间注意力模型来实现,空间注意力模型可以表示为: 其中βi,j是第i个像素对第j个像素的注意力权重; 是第i个像素和第j个像素的特征向量之间的相似度,表示两个像素的特征之间的关联程度; 是归一化因子,表示对所有像素的相似度进行求和;Vi表示文本序列中的第i个像素的特征向量;Uj表示图像序列中的第j个像素的特征向量;Uk表示图像序列中的第k个像素的特征向量;K是一个常数,表示特征图中的像素的总数;W、Ww是学习的矩阵参数;xk表示特征图第k个像素的输入向量;y2i为空间注意力模型第i个元素的输出向量;S3-3,注意力加权:将时间注意力层和空间注意力模型结合起来,对生成的图像序列中的每一帧进行注意力加权,以使其与原始文本中的关键词或对象相匹配,使用加权平均实现;注意力加权后的图像序列可以表示为: 其中I表示生成的图像序列;Ij表示图像序列中的第j帧;n表示图像的元素总数量;S3-4,匹配损失函数:将注意力加权后的生成图像序列与原始动作序列进行比对,计算两个序列之间的相似度,以作为训练的损失函数,使用交叉熵损失进行计算;损失函数可以表示为: 其中T表示动作序列的长度;Yt表示第t个时间步的真实值,它表示一个向量或者矩阵;It表示第t个时间步的预测值,它表示一个向量或者矩阵;Yt-It2是t个时间步的误差平方,它表示一个标量,它的值越大,表示模型的预测越偏差;S4,通过插值网络生成前后两帧画面之间的过渡帧画面;S5,将序列图像每一帧放入超分辨率网络,进行特征提取、特征对齐和超分重建;S6,输出最终的电影视频片段。

全文数据:

权利要求:

百度查询: 西南大学 一种文本生成电影视频片段的方法、系统和设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。