买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:华南农业大学
摘要:本发明公开了基于Transformer构建生成对抗网络实现妆容迁移的方法,使用Swin‑Transformerblock代替ResNetblock来作为生成器的特征提取器,并采用与CNN网络相似分层特征表示,因而具有比传统基于ResNet的网络具有更强的风格特征提取能力。同时,为了解决在妆容迁移过程中的空间错位问题,本发明引入注意力机制,通过建立逐像素的对应关系,并通过面部解析蒙版和面部标志来实现对应面部区域特征的有效融合,进而实现有效的妆容迁移。
主权项:1.基于Transformer构建生成对抗网络实现妆容迁移的方法,其特征在于,包括以下步骤:S1、在互联网上收集照片,形成图片数据集,S2、把图片数据集中的图片分类为化妆图片和未化妆图片;S3、对分类好的图片进行预处理;S4、搭建基于Transformer的妆容迁移网络;S5、预处理后的图片数据集中,未化妆的图片作为源图,化妆图片作为参考图,用于对步骤S4搭建的基于Transformer的妆容迁移网络进行训练;S6、将训练好的基于Transformer的妆容迁移网络应用于妆容迁移;搭建的基于Transformer的妆容迁移网络包括有两个输入分支,该两个输入分支的结构和功能相同,但不共享权重;每个分支均包括特征提取第一阶段和特征提取第二阶段,而每个阶段均使用两个连续的Swin-Transformerblock作为特征提取器;所述步骤S6将训练好的基于Transformer的妆容迁移网络应用于妆容迁移的具体过程如下:在每个分支中,对应的源图或参考图作为输入,而输入的图片首先分割成不重叠的小块,每一个小块视为一个token,每一个token的特征设置为原始像素RBG值的串联;然后使用一个线性嵌入层把原始的特征值映射到任意维度C;接着把数据传递到两个Swin-TransformerBlock中进行自注意力计算;线性嵌入层与其后的两个Swin-TransformerBlock构成特征提取的第一阶段;紧跟着,为了实现特征的分层表示,在每一个patch中的小矩阵进行分组然后进行连接,再经过一个线性连接层把维度降低,此时特征空间大小减小一半,与基于卷积的下采样后的特征空间大小相同,下采样层与其后的两个Swin-TransformerBlock构成特征提取的第二阶段;再接着对特征空间进行转换,把一维的特征序列转换成二维的特征矩阵;然后进行两个分支的特征融合;最后经过两层反卷积上采样层,把特征融合后的特征映射反转输出为源图迁移了参考图妆容的图片;两个分支的特征融合的具体过程包括:通过AMM模块计算一个空间注意力矩阵A∈RHW×HW来指定源图x的像素如何从参考图y的像素进行形变;Ai,j表示源图x的第i个像素与参考图y的第j个像素对应的注意力值;使用68个面部标记点作为锚点来描述像素xi的位置相关特征Pi,其通过计算像素xi与68个面部标记点的坐标差得到:Pi=[fxi-fl1,fxi-fl2,...,fxi-fl68,gxi-gl1,gxi-gl2,…,gxi-gl68]其中,f和g分别表示像素点的横坐标和纵坐标,l1到l68表示68个面部标记点,这些面部标记通过面部标记检测器获得;考虑到图片大小不同,把这些位置相关特征P归一化为为了实现更好的妆容迁移效果,已使用BiSeNet语义分割网络把人脸分割成眼睛、嘴唇和面部三个区域,用vi和vj分别表示原图和参考图对应像素点经过两阶特征提取并转换后项相对应的特征值,则空间注意力Ai,j表示为: 其中,ω为相关特征的权重,和分别表示xi和yj所在的区域,即眼睛、嘴唇和面部,分别用0,1,2表示,θ为脉冲函数,当时为1,否则为0;用γ∈R1×H×W和β∈R1×H×W表示从参考图的特征映射Vy∈RC×H×W分别经过一个1×1卷积层获得的化妆矩阵,然后与A矩阵相乘则得到两个经过空间形变的化妆矩阵: 再把γ′和β′沿通道维度扩充,得到Γ′∈RC×H×W和B′∈RC×H×W,再应用到源图的特征映射Vx∈RC×H×W上,则得到特征融合后的特征映射V′x:V′x=Γ′Vx+B′。
全文数据:
权利要求:
百度查询: 华南农业大学 基于Transformer构建生成对抗网络实现妆容迁移的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。