申请/专利权人:南京大学
申请日:2024-03-21
公开(公告)日:2024-06-21
公开(公告)号:CN118230090A
主分类号:G06V10/774
分类号:G06V10/774;G06V10/82;G06V10/46;G06N3/08
优先权:
专利状态码:在审-公开
法律状态:2024.06.21#公开
摘要:本发明公开了一种基于扩散模型的文本生成材质贴图的优化方法及系统,本发明包括:获取无材质文本标注的第一图像数据集,并将编码生成数据与对应的图像一起作为样本,输入稳定扩散模型的U‑NET模型进行优化训练;获取含有材质文本标注的第二图像数据集,并将图像编码和加噪后的数据,以及图像的材质文本采用两种方式编码的文本嵌入数据作为样本,进行训练,将所述两种不同编码方式和训练好的Transformer解码器组合作为优化文本嵌入生成模块;将隐空间特征解码器进行扩充并训练,作为优化隐空间特征解码器;将优化后的各模块分别替换稳定扩散模型中对应模块,得到优化后的材质贴图生成模型;将待生成贴图的材质文本输入优化后的材质贴图生成模型,得到材质贴图。本发明泛化性更高。
主权项:1.一种基于扩散模型的文本生成材质贴图的优化方法,其特征在于,包括如下步骤:1获取无材质文本标注的第一图像数据集,并对第一图像数据集中每个图像进行编码,生成第一图像嵌入数据,并与对应的图像一起作为样本,输入稳定扩散模型进行训练,将训练好的稳定扩散模型的U-NET模型作为优化U-NET模型;2获取含有材质文本标注的第二图像数据集,并对第二图像数据集中每个图像进行编码和加噪,生成第二图像嵌入数据,对每个图像的材质文本标注采用两种不同编码方式分别进行编码,生成第二文本嵌入数据和第三文本嵌入数据;3将第二图像嵌入数据、第二文本嵌入数据和第三文本嵌入数据作为样本,对Transformer解码器进行训练,将所述两种不同编码方式和训练好的Transformer解码器组合作为优化文本嵌入生成模块;4将稳定扩散模型的隐空间特征解码器按照所需材质贴图的通道数进行扩充,并将第一图像数据集经过优化U-NET模型后的输出作为样本,对隐空间特征解码器进行训练,将训练好的隐空间特征解码器作为优化隐空间特征解码器;5将优化文本嵌入生成模块、优化U-NET模型、优化隐空间特征解码器分别替换稳定扩散模型中对应模块,得到优化后的材质贴图生成模型;6将待生成贴图的材质文本输入优化后的材质贴图生成模型,得到材质贴图。
全文数据:
权利要求:
百度查询: 南京大学 基于扩散模型的文本生成材质贴图的优化方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。