一种基于文本引导的艺术字图片生成方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：华东师范大学

摘要：本发明公开了一种基于文本引导的艺术字图片生成方法，其特点是采用基于零样本学习方法，运用该方法并结合预训练模型构建出一个文生图系统，该系统由分别处理矢量图和位图两个模块组成，艺术字的样式由文本描述或风格图片控制，艺术字的骨架保持与输入相同参考字图片。本方法具体包括：在矢量图处理模块中，通过梯度下降优化矢量字体的颜色、纹理和线条宽度等参数，并通过最小化CLIP嵌入空间中提示词和字体之间的方向距离来实现艺术字体生成；在位图处理模块中，通过对预训练扩散模型的参数微调，并运用控制网模型保持艺术字的骨架和参考字图片一致。本方法可以减少艺术字创作的工作量，帮助用户迸发艺术创作灵感。

主权项：1.一种基于文本引导的艺术字图片生成方法，其特征在于，该方法具体包括如下步骤：S1、构建艺术风格图片数据集并进行数据增强，具体包括：S1-1：艺术风格图片数据收集收集原始图片Ii构成数据集{I}，Ii代表第i张原始图片；对于i＝1,2,...,nS1-2：数据预处理对数据集合{I}中的每一张图片Ii进行尺度调整和裁剪预处理操作，得到预处理后的图片Ii′；S1-3：数据增强选择一组数据增强技术{T}，包括旋转、翻转、缩放、裁剪、颜色调整、亮度调整及添加噪声；为每一项技术Tj定义对应的变换函数Fj；S1-4：变换应用将变换函数Fj应用于图片Ii′以生成增强后的图片Ii*；对每一张图片，随机选择n个数据增强技术进行组合：Ii*←FjnIi′；对于j＝1,2,...,n其中，每一种数据增强技术Tj的变换函数Fj描述为以下形式：Fj:Ii′→Ii*每次变换应用将基于参数τ来实现，该参数包括角度α、缩放比例β、亮度调节系数γ，具体取决于增强方法的类型；这些参数利用以下公式来表示：FjτIi′＝Ii*|τ∈{α,β,γ,…}S1-5：数据集构建将所有增强后的图片集合{I*}与原始图片集合{I}合并，得到增强型图片数据集Ie＝I*∪I；S2、对用户输入字体图片格式进行转换，具体包括：S2-1：图像格式定义定义位图格式Bitmap与矢量图像格式Vector，其中Bitmap表示由像素矩阵组成的图像，Vector表示由几何对象和其属性定义的图像；S2-2：图像加载载入待转换参考字体图像Iref，确定图像格式f∈{Bitmap,Vector}；如果Iref为位图，则f＝Bitmap；如果Iref为矢量图，则f＝Vector；S2-3：图像解析根据图像格式f解析图像Iref；若f＝Bitmap，则执行位图解析函数BPF·；若f＝Vector，则执行矢量解析函数VPF·：BPF:Iref→P，图像Iref转换为像素矩阵P；VPF:Iref→G，图像Iref转换为几何对象集G；S2-4：格式转换若f＝Bitmap，则执行位图转矢量图函数BTV·：BTV:P→Vector，像素矩阵P转换为矢量图像Vector；若f＝Vector，则执行矢量转位图函数VTB·：VTB:G→Bitmap，几何对象集G转换为位图Bitmap；S2-5：图像输出输出转换后的参考字体图像Iref′；S3、根据用户选择使用不同模块生成艺术字图片，具体包括：S3-1：根据输入图片格式使用不同模块进行处理输入文本描述Tdec，载入转换后的参考字体图像Iref′，定义位图处理模块BM与矢量图处理模块VM，确定选择使用的处理模块g∈{BM,VM}；如果Iref′为位图，则g＝BM；如果Iref′为矢量图，则g＝VM；S3-2：矢量图处理模块矢量字体图像初始化和增强：对于每个矢量多边形，增加边界上的控制点数量，应用随机颜色渐变，单色字体并根据颜色相似度将其分成多个小多边形；设计损失函数：损失函数分为三部分，分别是CLIP识别损失、定向CLIP损失和相似性损失；CLIP识别损失Lrecognition，提取单个字符优化前后的语义特征，并计算高维语义相似度；在计算识别损失之前，对目标图片灰阶化，以避免颜色变化的影响；其中Iin和Iout分别是输入图像和输出图像，ET和EI分别是CLIP的文本和图像编码器，m为固定边界值；定向CLIP损失实现鲁棒的语义传输，对齐文本图像对之间的CLIP空间方向输入和输出；ΔT＝ETtout-ETtinΔI＝EIIout-EIIin 其中ET和EI分别是CLIP的文本和图像编码器；tout、tin分别是输出效果的文本描述和输入内容的文本描述，m为固定边界值；相似度损失用于衡量输入字体和生成结果之间的相似度其中使用深层特征来衡量图像相似度，并关注高层特征的差异，而监控像素级差异，λ1和λ2为超参数；首先对结果进行灰度化，否则，相似度损失会阻碍积极的颜色变化；总损失，使用三种不同的损失作为整体损失函数；首先，使用保持字符的高维语义和类别不变；其次，应用进行纹理生成和正形状变化；最后，类似可以避免结果变得过于不同；因此，总损失函数为其中，λr、λd和λs为超参数；S3-3：位图处理模块稳定扩散模型StableDiffusion：该模型通过以下方程式描述像素扩散过程：其中It表示在时间t的图像；It-1是时间t-1的图像；ηt是一个调节扩散速率的参数；代表梯度下降函数；K是目标控制特性；控制网模型ControlNet：该模型定义如下: 其中VT表示控制网上的顶点；CP是参考图片上对应的控制点；R是映射这些点到输出图像的关系；wi是控制点权重；vti和cpi分别表示在控制网和参考图像上的第i个控制点；大型语言模型的低秩适应LoRA的应用：LoRA通过对大型预训练语言模型添加局部低秩矩阵W来调整参数，不需要全面重新训练模型，该模型定义如下：Y＝LoRAX；W,θL＝softmaxXWVT+UWT+b其中所述LoRA模型公式里的X为输入特征，W为低秩矩阵，U和V为原模型权重，b为偏置项，θL为LoRA模型参数；将步骤S1得到的增强型图片数据集Ie用以训练具有艺术风格的LoRA模型；输入控制条件，其中所述控制条件包括字体轮廓图、字体深度图；将所述文本描述和所述参考图像转换为向量，将所述向量输入至稳定扩散模型，结合所述训练好的LoRA模型输出初始风格图；将所述向量和所述初始风格图输入至控制网络模型，输出艺术字体图片Iout；S4、对系统输出艺术字图片格式进行转换，具体包括：S4-1：图像格式定义定义位图格式Bitmap与矢量图像格式Vector，其中Bitmap表示由像素矩阵组成的图像，Vector表示由几何对象和其属性定义的图像；S4-2：图像加载载入系统输出的艺术字图像Iout，确定图像格式f∈{Bitmap,Vector}；如果Iout为位图，则f＝Bitmap；如果Iout为矢量图，则f＝Vector；S4-3：图像解析根据图像格式f解析图像I；若f＝Bitmap，则执行位图解析函数BPF·；若f＝V，则执行矢量解析函数VPF·：BPF:Iout→P，图像Iout转换为像素矩阵P；VPF:Iout→G，图像Iout转换为几何对象集G；S4-4:格式转换若f＝Bitmap，则执行位图转矢量图函数BTV·：BTV:P→Vector，像素矩阵P转换为矢量图像Vector；若f＝Vector，则执行矢量转位图函数VTB·：VTB:G→Bitmap，几何对象集G转换为位图Bitmap；S4-5：图像输出输出转换后的图像Iout′，其中Iout′表示转换后的目标格式图像；S5、对系统输出艺术字图片进行完善，具体包括：对经过格式转换后的图片使用平面处理软件进行处理，包括提高位图的分辨率和补充矢量图丢失的细节。

全文数据：

权利要求：

百度查询：华东师范大学一种基于文本引导的艺术字图片生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于文本引导的艺术字图片生成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务