【发明授权】一种文本生成电影视频片段的方法、系统和设备_西南大学_202311430792.1

导航：龙图腾网> 最新专利技术> 一种文本生成电影视频片段的方法、系统和设备_西南大学_202311430792.1

申请/专利权人：西南大学

申请日：2023-10-31

公开（公告）日：2024-05-24

公开（公告）号：CN117478978B

主分类号：H04N21/8549

分类号：H04N21/8549;G06F40/289;G06F40/30;G06F40/216;G06F40/151;G06T3/4053;G06N3/0464;G06V10/74;G06V10/82;G06V10/26;G06N3/045;G06N3/0475;G06N3/094;H04N21/845;H04N21/2343;H04N21/4402

优先权：

专利状态码：有效-授权

法律状态：2024.05.24#授权;2024.02.20#实质审查的生效;2024.01.30#公开

摘要：本发明提出了一种文本生成电影视频片段的方法、系统和设备。所述方法包括：连接到服务器的客户端电脑通过输入文字来生成电影视频片段。生成过程涉及一个处理模型，该模型可以根据文本语义生成与之匹配的目标片段的初始帧。在处理模型中，初始帧会接受注意力训练，以使生成的图像与动作相匹配。模型还会生成电影视频片段序列的图像，通过插值网络提高每秒帧数，使用超分辨率网络提升图像的像素和线条精度，最终得到连贯且高精度的电影视频片段。

主权项：1.一种文本生成电影视频片段的方法，其特征在于，包括以下步骤：S1，服务器将接收到的输入内容数据转换为文本信息，得到描述文本；所述输入内容数据包括：数字、文字、图像、音频、视频之一或者任意组合；S2，将描述文本依次经过数据预处理、语义分割模型和扩散模型，得到与文本语义匹配的电影视频初始帧；所述数据预处理包括：将文本数据进行分词、编码操作；并对分词后的文本数据，提取文本数据中的关键词：S01，统计分词的类别、词频以及其情感得分，并筛选出关键词；情感得分的计算公式如下：scoree，i＝δiWordi+ρi-μ 其中δi为第i个词的权重；ρi为第i个词的调整系数；Wordi为词级情感指数；L表示词的总数量；max表示取最大值；关键词计算公式如下：KEY＝α×scoree+β×FRE+γ×FR其中α、β、γ分别表示词的类别权重、词频权重以及其情感得分权重；scoree表示词的情感得分；FRE表示词的类别得分；FR表示词的词频次数；按照词的得分进行排名，选择前K个词作为关键词；所述语义分割模型将文本中的语义信息与图像中的像素进行对应，语义分割模型的输入是文本数据，输出是对应图像的语义分割结果；语义分割模型的损失函数为交叉熵损失函数；所述扩散模型对语义分割结果进行填充和修正，扩散模型的输入是语义分割结果，输出是生成的图像；其目标表示为：Goal＝argminGmaxDLG,D其中G表示生成器；D表示判别器；arg表示反正切函数；minG表示最小化生成器的损失函数；maxD表示最大化判别器的损失函数；L,是对抗损失函数；S3，对初始帧进行注意力训练，将生成的图像与动作相匹配，得到初始的电影视频片段；注意力训练包括时间约束模块和空间约束模块；S3-1，时间约束模块：在时间维度上对序列图像进行生成并约束，具体为将初始帧依次传入注意力卷积层、池化层、自注意力层、交叉注意力层、前馈层；首先通过将初始帧作为中间特征值，进行重复操作，生成电影视频片段序列图像；然后利用注意力机制将文本序列中的每个时间步与生成的图像序列中的对应帧进行匹配；具体通过时间注意力层实现，时间注意力层的计算公式为：其中at,i表示第t个时间步的第j帧的匹配分数；ht表示第t个时间步的文本特征向量；hj表示图像序列中的第j帧的特征向量； T为转置符号；W、Wv是学习的矩阵参数；n表示图像序列的总帧数；y1i为通过时间注意力层第i个元素的输出向量；S3-2，空间约束模块：在空间维度上对序列图像进行生成并约束；基于初始帧，通过注意力训练将序列图像与文本中的动词进行匹配，生成多张与初始帧关联的电影视频片段序列图像；首先，对时间约束模块中前馈层输出的图像序列进行输入处理，即将原始文本分词并进行词性标注，提取其中的动词作为关键帧；然后提取图像特征，具体是使用预训练的视觉特征提取器提取每个关键帧的特征向量，并使用自然语言处理模型提取每个动词的文本特征向量；然后确定图像中物体位置关系，再确定图像帧中动词对齐的部分作为键值特征，最后基于时间约束模块，在空间中对下一帧画面进行扩散处理，对电影视频片段序列图像生成结果进行约束，输出图像特征和视频；在每个时间步中，将生成的图像划分为一些区域，并把它们与原始文本中的关键词或对象相匹配；所述匹配是通过空间注意力模型来实现，空间注意力模型可以表示为：其中βi,j是第i个像素对第j个像素的注意力权重；是第i个像素和第j个像素的特征向量之间的相似度，表示两个像素的特征之间的关联程度；是归一化因子，表示对所有像素的相似度进行求和；Vi表示文本序列中的第i个像素的特征向量；Uj表示图像序列中的第j个像素的特征向量；Uk表示图像序列中的第k个像素的特征向量；K是一个常数，表示特征图中的像素的总数；W、Ww是学习的矩阵参数；xk表示特征图第k个像素的输入向量；y2i为空间注意力模型第i个元素的输出向量；S3-3，注意力加权：将时间注意力层和空间注意力模型结合起来，对生成的图像序列中的每一帧进行注意力加权，以使其与原始文本中的关键词或对象相匹配，使用加权平均实现；注意力加权后的图像序列可以表示为：其中I表示生成的图像序列；Ij表示图像序列中的第j帧；n表示图像的元素总数量；S3-4，匹配损失函数：将注意力加权后的生成图像序列与原始动作序列进行比对，计算两个序列之间的相似度，以作为训练的损失函数，使用交叉熵损失进行计算；损失函数可以表示为：其中T表示动作序列的长度；Yt表示第t个时间步的真实值，它表示一个向量或者矩阵；It表示第t个时间步的预测值，它表示一个向量或者矩阵；Yt-It2是t个时间步的误差平方，它表示一个标量，它的值越大，表示模型的预测越偏差；S4，通过插值网络生成前后两帧画面之间的过渡帧画面；S5，将序列图像每一帧放入超分辨率网络，进行特征提取、特征对齐和超分重建；S6，输出最终的电影视频片段。

全文数据：

权利要求：

百度查询：西南大学一种文本生成电影视频片段的方法、系统和设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：显示装置_乐金显示有限公司_202410235668.8

下一篇：用于检测肠道病毒的组合物及试剂盒_基蛋生物科技股份有限公司_202211653752.9

相关技术

显示装置_乐金显示有限公司_202410235668.8

用于检测肠道病毒的组合物及试剂盒_基蛋生物科技股份有限公司_202211653752.9

一种模拟人工无序加工的方法_江苏扬力数控机床有限公司_202410307604.4

酸化改造用酸液及其制备方法_中国石油化工股份有限公司石油勘探开发研究院_202410669072.9

一种基于时空避障的多任务AGV调度方法、设备及存储介质_成都飞机工业(集团)有限责任公司_202410686975.8

力加载装置、静热实验测试系统及方法_航天科工防御技术研究试验中心_202410030538.0

显示面板_友达光电股份有限公司_202410577962.7

用锌转运蛋白7抑制神经退行性变_加利福尼亚大学董事会_202280074028.2

用于治疗PI3Kγ介导的疾病的化合物及其用途_中国科学院合肥物质科学研究院_202211660839.9

显示基板、显示装置及母板_京东方科技集团股份有限公司_202280003751.1

一种用于铝灰渣处置的筛分装置_甘肃华源西域环保科技有限公司_202410668890.7

接口调用示例生成方法和装置、电子设备和存储介质_北京金山云网络技术有限公司_202211658977.3

片段相关技术

基于最优电压片段搜索的电池健康状态评估方法及系统_山东大学_202410359743.1

一种当归多糖水解片段及其制备方法和应用_西北民族大学_202410458164.2

在图形处理单元中将纹理处理应用于片段块_想象技术有限公司_202311751537.7

在图形处理单元中将纹理处理应用于片段块_想象技术有限公司_202311768584.2

多花黄精多糖寡糖片段及其制备方法和应用_安徽中医药大学_202310927816.8

一种基于一致片段选择的视听事件定位方法_北京邮电大学_202310241056.5

一种抗TNFR2抗体或其抗原结合片段治疗肿瘤的应用_宝船生物医药科技(上海)有限公司_202211659601.4

一种特异性结合HAdV55的抗体或抗原结合片段及其应用_中国科学院广州生物医药与健康研究院_202311813093.5

抗甲型流感病毒抗体或其功能性片段、检测甲型流感病毒的试剂和试剂盒_东莞市朋志生物科技有限公司_202311045837.3

一种动画片段的动态加载优化方法及装置_在线途游(北京)科技有限公司_202410327715.1

视频相关技术

视频播放方法、视频播放装置和电子设备_维沃移动通信有限公司_202210880393.4

用于视频编码和视频解码的装置_弗劳恩霍夫应用研究促进协会_202310620036.9

视频编码方法、视频发布方法及相关产品_书行科技(北京)有限公司_202311236937.4

手术视频目录的压缩_数字外科有限公司_202180103782.X

视频编码/解码设备执行的方法和提供视频数据的方法_SK电信有限公司_202410375145.3

视频编码/解码设备和提供视频数据的设备_SK电信有限公司_202410375150.4

视频流传输方法和用于视频流传输的装置_腾讯美国有限责任公司_202180005910.7

视频编码/解码设备执行的方法和提供视频数据的方法_SK电信有限公司_202410375148.7

视频编码/解码设备和提供视频数据的设备_SK电信有限公司_202410375147.2

调整视频暗箱摄像头安装位置的装置、方法和视频暗箱_重庆赛力斯凤凰智创科技有限公司_202410355998.0

电影相关技术

一种基于交叉模态融合的电影推荐系统_浙江大学_202110827904.1

一种基于知识图谱的电影问答查询系统及其方法_中国传媒大学_202011149477.8

一种立体电影配套的装置_上海睿宏文化传播有限公司_202323271490.2

可以投放立体电影或立体标识的车辆前照灯总成及系统_上汽大众汽车有限公司_202410205663.0

一种用于降低印刷静电影响的局部湿法处理装置_苏州同里印刷科技股份有限公司_202322628228.2

一种具有误触功能的电影院LED显示屏用控制板_深圳帝显高端制造方案解决有限公司_202322727980.2

一种电影场景内镜头视频排序系统及方法_之江实验室_202210460469.8

一种用于电影拍摄的滑轨_胡雅飞_202322936243.3

一种文本生成电影视频片段的方法、系统和设备_西南大学_202311430792.1

一种电影院音频渲染调整方法、装置和系统_中国电影科学技术研究所(中央宣传部电影技术质量检测所)_202410198540.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种文本生成电影视频片段的方法、系统和设备_西南大学_202311430792.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务