首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于文本引导的艺术字图片生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华东师范大学

摘要:本发明公开了一种基于文本引导的艺术字图片生成方法,其特点是采用基于零样本学习方法,运用该方法并结合预训练模型构建出一个文生图系统,该系统由分别处理矢量图和位图两个模块组成,艺术字的样式由文本描述或风格图片控制,艺术字的骨架保持与输入相同参考字图片。本方法具体包括:在矢量图处理模块中,通过梯度下降优化矢量字体的颜色、纹理和线条宽度等参数,并通过最小化CLIP嵌入空间中提示词和字体之间的方向距离来实现艺术字体生成;在位图处理模块中,通过对预训练扩散模型的参数微调,并运用控制网模型保持艺术字的骨架和参考字图片一致。本方法可以减少艺术字创作的工作量,帮助用户迸发艺术创作灵感。

主权项:1.一种基于文本引导的艺术字图片生成方法,其特征在于,该方法具体包括如下步骤:S1、构建艺术风格图片数据集并进行数据增强,具体包括:S1-1:艺术风格图片数据收集收集原始图片Ii构成数据集{I},Ii代表第i张原始图片;对于i=1,2,...,nS1-2:数据预处理对数据集合{I}中的每一张图片Ii进行尺度调整和裁剪预处理操作,得到预处理后的图片Ii′;S1-3:数据增强选择一组数据增强技术{T},包括旋转、翻转、缩放、裁剪、颜色调整、亮度调整及添加噪声;为每一项技术Tj定义对应的变换函数Fj;S1-4:变换应用将变换函数Fj应用于图片Ii′以生成增强后的图片Ii*;对每一张图片,随机选择n个数据增强技术进行组合:Ii*←FjnIi′;对于j=1,2,...,n其中,每一种数据增强技术Tj的变换函数Fj描述为以下形式:Fj:Ii′→Ii*每次变换应用将基于参数τ来实现,该参数包括角度α、缩放比例β、亮度调节系数γ,具体取决于增强方法的类型;这些参数利用以下公式来表示:FjτIi′=Ii*|τ∈{α,β,γ,…}S1-5:数据集构建将所有增强后的图片集合{I*}与原始图片集合{I}合并,得到增强型图片数据集Ie=I*∪I;S2、对用户输入字体图片格式进行转换,具体包括:S2-1:图像格式定义定义位图格式Bitmap与矢量图像格式Vector,其中Bitmap表示由像素矩阵组成的图像,Vector表示由几何对象和其属性定义的图像;S2-2:图像加载载入待转换参考字体图像Iref,确定图像格式f∈{Bitmap,Vector};如果Iref为位图,则f=Bitmap;如果Iref为矢量图,则f=Vector;S2-3:图像解析根据图像格式f解析图像Iref;若f=Bitmap,则执行位图解析函数BPF·;若f=Vector,则执行矢量解析函数VPF·:BPF:Iref→P,图像Iref转换为像素矩阵P;VPF:Iref→G,图像Iref转换为几何对象集G;S2-4:格式转换若f=Bitmap,则执行位图转矢量图函数BTV·:BTV:P→Vector,像素矩阵P转换为矢量图像Vector;若f=Vector,则执行矢量转位图函数VTB·:VTB:G→Bitmap,几何对象集G转换为位图Bitmap;S2-5:图像输出输出转换后的参考字体图像Iref′;S3、根据用户选择使用不同模块生成艺术字图片,具体包括:S3-1:根据输入图片格式使用不同模块进行处理输入文本描述Tdec,载入转换后的参考字体图像Iref′,定义位图处理模块BM与矢量图处理模块VM,确定选择使用的处理模块g∈{BM,VM};如果Iref′为位图,则g=BM;如果Iref′为矢量图,则g=VM;S3-2:矢量图处理模块矢量字体图像初始化和增强:对于每个矢量多边形,增加边界上的控制点数量,应用随机颜色渐变,单色字体并根据颜色相似度将其分成多个小多边形;设计损失函数:损失函数分为三部分,分别是CLIP识别损失、定向CLIP损失和相似性损失;CLIP识别损失Lrecognition,提取单个字符优化前后的语义特征,并计算高维语义相似度;在计算识别损失之前,对目标图片灰阶化,以避免颜色变化的影响; 其中Iin和Iout分别是输入图像和输出图像,ET和EI分别是CLIP的文本和图像编码器,m为固定边界值;定向CLIP损失实现鲁棒的语义传输,对齐文本图像对之间的CLIP空间方向输入和输出;ΔT=ETtout-ETtinΔI=EIIout-EIIin 其中ET和EI分别是CLIP的文本和图像编码器;tout、tin分别是输出效果的文本描述和输入内容的文本描述,m为固定边界值;相似度损失用于衡量输入字体和生成结果之间的相似度 其中使用深层特征来衡量图像相似度,并关注高层特征的差异,而监控像素级差异,λ1和λ2为超参数;首先对结果进行灰度化,否则,相似度损失会阻碍积极的颜色变化;总损失,使用三种不同的损失作为整体损失函数;首先,使用保持字符的高维语义和类别不变;其次,应用进行纹理生成和正形状变化;最后,类似可以避免结果变得过于不同;因此,总损失函数为 其中,λr、λd和λs为超参数;S3-3:位图处理模块稳定扩散模型StableDiffusion:该模型通过以下方程式描述像素扩散过程: 其中It表示在时间t的图像;It-1是时间t-1的图像;ηt是一个调节扩散速率的参数;代表梯度下降函数;K是目标控制特性;控制网模型ControlNet:该模型定义如下: 其中VT表示控制网上的顶点;CP是参考图片上对应的控制点;R是映射这些点到输出图像的关系;wi是控制点权重;vti和cpi分别表示在控制网和参考图像上的第i个控制点;大型语言模型的低秩适应LoRA的应用:LoRA通过对大型预训练语言模型添加局部低秩矩阵W来调整参数,不需要全面重新训练模型,该模型定义如下:Y=LoRAX;W,θL=softmaxXWVT+UWT+b其中所述LoRA模型公式里的X为输入特征,W为低秩矩阵,U和V为原模型权重,b为偏置项,θL为LoRA模型参数;将步骤S1得到的增强型图片数据集Ie用以训练具有艺术风格的LoRA模型;输入控制条件,其中所述控制条件包括字体轮廓图、字体深度图;将所述文本描述和所述参考图像转换为向量,将所述向量输入至稳定扩散模型,结合所述训练好的LoRA模型输出初始风格图;将所述向量和所述初始风格图输入至控制网络模型,输出艺术字体图片Iout;S4、对系统输出艺术字图片格式进行转换,具体包括:S4-1:图像格式定义定义位图格式Bitmap与矢量图像格式Vector,其中Bitmap表示由像素矩阵组成的图像,Vector表示由几何对象和其属性定义的图像;S4-2:图像加载载入系统输出的艺术字图像Iout,确定图像格式f∈{Bitmap,Vector};如果Iout为位图,则f=Bitmap;如果Iout为矢量图,则f=Vector;S4-3:图像解析根据图像格式f解析图像I;若f=Bitmap,则执行位图解析函数BPF·;若f=V,则执行矢量解析函数VPF·:BPF:Iout→P,图像Iout转换为像素矩阵P;VPF:Iout→G,图像Iout转换为几何对象集G;S4-4:格式转换若f=Bitmap,则执行位图转矢量图函数BTV·:BTV:P→Vector,像素矩阵P转换为矢量图像Vector;若f=Vector,则执行矢量转位图函数VTB·:VTB:G→Bitmap,几何对象集G转换为位图Bitmap;S4-5:图像输出输出转换后的图像Iout′,其中Iout′表示转换后的目标格式图像;S5、对系统输出艺术字图片进行完善,具体包括:对经过格式转换后的图片使用平面处理软件进行处理,包括提高位图的分辨率和补充矢量图丢失的细节。

全文数据:

权利要求:

百度查询: 华东师范大学 一种基于文本引导的艺术字图片生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术