首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于解耦再融合控制的故事分镜生成方法 

申请/专利权人:电子科技大学

申请日:2024-04-19

公开(公告)日:2024-06-28

公开(公告)号:CN118262003A

主分类号:G06T11/00

分类号:G06T11/00;G06F40/289;G06F40/253;G06F40/166;G06T7/194

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本发明公开了一种基于解耦再融合控制的故事分镜生成方法,首先对故事文本进行处理,得到角色和场景的文字提示,根据角色和场景的预设参考图像对预训练好的稳定扩散模型进行微调,得到每个场景或角色所对应的模型参数和对应的嵌入向量,然后生成每个句子中的角色图像和场景图像,以及角色中间图像和场景中间图像,从角色图像中提取出前景掩码图像并据此将角色和场景中间图像进行融合得到融合图像,然后采用角色和场景所对应稳定扩散模型的参数对后续去噪过程进行协同控制,将最终生成图像作为句子所对应的故事分镜图像。本发明综合考虑角色的视觉一致性和场景的上下文相关性,从而提升所生成分镜图像之间的逻辑连贯性。

主权项:1.一种基于解耦再融合控制的故事分镜生成方法,其特征在于,包括以下步骤:S1:对故事文本进行处理,具体步骤包括:S1.1:将故事文本进行断句处理,得到N个离散的句子Tn,n=1,2,…,N;S1.2:使用大语言模型根据上下文关系确定每个句子的主语、谓语、宾语和地点状语,根据地点状语确定每个句子对应的场景,如果某个句子不存在地点状语,则设置其场景为上文中最近的一个场景,然后在每个句子中添加场景标记根据主语或宾语确定场景对应的角色,在每个句子中添加角色标记k=1,2,…,Kn,Kn表示句子Tn中的角色数量;S1.3:根据步骤S1.2的词语标记结果,对每个句子Tn进行重写,得到重写后的句子重写方法为:对于句子Tn中的每个角色,采用大语言模型从句子Tn中提取出以该角色为主语的、由主谓宾构成的叙述内容,并连同对应的角色标记一起构成内容部分将句子对应的场景以及场景标记构成场景部分同时,通过去除内容部分和场景部分中的标记,得到内容提示Tn,C,k和场景提示Tn,S;S2:对于步骤S1中确定的所有场景和角色,分别为每个场景和每个角色设置若干张参考图像;S3:对于每个角色和场景,采用对应的参考图像分别对预训练好的稳定扩散模型进行微调,得到每个场景或角色所对应的模型参数和对应的嵌入向量;S4:对于每个句子中的角色和场景,将稳定扩散模型采用对应的参数进行设置,然后以对应的内容部分或场景部分作为文字提示生成对应的角色图像和场景图像同时提取出稳定扩散模型中去噪网络在图像生成过程时间步为τ时的角色中间图像和场景中间图像τ的值根据实际需要设置;S5:对每个句子对应的每个角色图像进行前景分割,从中提取出前景掩码图像mn,C,k;然后采用如下公式对句子中的角色和场景中间图像进行整合,得到整合图像 其中,⊙表示对应元素相乘;S6:对于稳定扩散模型中时间步为τ-1至0的去噪过程,每个去噪过程中的参数设置为K个角色和场景所对应的稳定扩散模型中其中一个模型中对应去噪过程的参数,该去噪过程所采用的Tokenembeddings矩阵由稳定扩散模型中的CLIPText文本编码器根据文字提示生成,其中文字提示采用如下方法确定:如果该去噪过程采用的是句子Tn中第k*个对象所对应稳定扩散模型的参数,则令文字提示为如果该去噪过程采用的是句子Tn中场景所对应稳定扩散模型的参数,则令文字提示为然后将融合图像作为稳定扩散模型时间步为τ-1的去噪过程的输入,根据所设置的参数和Tokenembeddings矩阵继续执行时间步为τ-1至0的去噪过程,将得到的最终生成图像作为句子Tn所对应的故事分镜图像。

全文数据:

权利要求:

百度查询: 电子科技大学 基于解耦再融合控制的故事分镜生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。