Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于概念分割的终身学习文生图方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:电子科技大学

摘要:该发明公开了一种基于概念分割的终身学习文生图方法,属于计算机视觉领域。该方法首先构建了图片对应的包含类别的文本描述,将类别信息和图像输入到SAM中,从而把目标概念从训练图像中提取出来,再将分割后的图像输入到变分自动编码器中进行降维,然后将降维后的图像经过前向过程加噪得到和图像维度一致的噪声图像,再然后将该噪声图像作为U‑Net的输入并使用图像对应的文本描述作为概念的文本表示,目标是令网络能够预测出前向过程中所添加的真实高斯噪声,最后让加噪后的图像减去该噪声还原出原始的图像;本发明充分的发挥了概念分割的优势,有效的学习了多个不同的概念,具有良好的稳定性和泛化性,并提出了更加准确和客观的文生图模型评测方法。

主权项:1.一种基于概念分割的终身学习文生图方法,其特征在于,该方法包括:步骤1:数据集构建与预处理;获取各概念的彩色图像构造数据集;选取部分概念的图像构成子数据集;针对每个概念,构造不包含背景信息文本描述,该文本描述包含与前景图像对应的类别信息,每个概念包括多个类别;步骤2:目标概念分割;将图像和图像对应的类别描述输入到SAM模型中,SAM模型的输出是对应于概念区域的掩码m,将数据集中图像记为x,所对应的类别信息为cls,SAM模型记为则分割过程表示如下: 其中,xt,k表示第t个概念的第k张图像,clst表示第t个概念的类别,mt,k表示SAM模型输出的第t个概念的第k张图像的掩码;SAM模型为一种提示型图像分割模型;利用掩码对图像进行处理,其过程如下:x′t,k=mt,k*xt,k+γ*1-mt,k;其中,x′t,k表示概念分割后第t个概念的第k张图像,γ为超参数,将其设为255,表示概念区域以外的部分设为白色;步骤3:构建神经网络;步骤4:插入低秩适应模块;构建低秩适应模块ΔW=AB,在实数域上,将A初始化为D1×r维的高斯分布矩阵,B初始化为r×D2维的零矩阵,则从而ΔW=AB=0,确保低秩模块在开始训练时不影响神经网络的参数,矩阵的秩r<minD1,D2,r,D1,D2为预设的固定值;步骤5:构建连续学习范式;为了在预训练模型上连续学习新的概念,采用低秩适应模块存储当前概念的知识,当有新的概念到来时,冻结之前概念的低秩适应模块,同时创建一个新的低秩适应模块来学习新的概念;设预训练的U-Net的参数为W0,则通过低秩适应模块对模型微调后,得到的最终模型参数表达式如下:Wt=W0+ΔW1+ΔW2+…+ΔWt其中,ΔWt表示低秩适应模块在不同概念上学习得到的参数,Wt表示学习第t个概念时U-Net的参数,由预训练模型的参数W0和低秩适应模块的参数相加得到的;同时为了模型能够根据特定的文本信息生成对应的概念图像,还需要在文本编码器中为每一个概念插入特定的标识符,每个标识符对应一个文本编码,该文本编码使用稀有的词向量初始化;步骤6:设计损失函数;在步骤1、2中数据集中图像记为x,对应的文本描述记为c,对正态分布进行随机采样得到噪声∈;步骤3中的变分自动编码器记为ε,CLIP文本编码器记为ψθ,U-Net模型记为∈θ;变分自动编码器的输入为x,输出为εx,z表示变分自动编码器的输出;CLIP文本编码器的输入为c,输出为ψc,根据t的值来得到不同的zt,zt表示变分自动编码器在计算第t个概念时的输出,计算方式如下: 其中,Π表示乘积运算,αi为第i个前向过程变量,αi∈0,1且α1α2…αT,T表示概念总数;神经网络模型的L2范数损失为: 其中噪声∈服从标准正态分布表示变量的数学期望,该损失的目标是最小化∈和∈θ的L2范数;为了增强神经网络模型学习新概念的能力,减小不同概念的参数之间的干扰,采用如下正交损失函数该损失函数的具体形式为: 其中I表示单位矩阵,右上标T表示转置,该损失函数的目的是让低秩适应模块的A矩阵的不同列保持正交,At表示秩适应模块的第t个A矩阵,⊙表示同或运算;最终得到了模型训练的损失函数: 其中λ为超参数,用来平衡正交损失对模型的影响;步骤7:训练总神经网络,总神经网络包括步骤3,4,5构造的神经网络;利用步骤6构建的损失函数进行神经网络训练,在实际训练过程冻结预训练的变分自动编码器、U-Net的参数,只训练添加的低秩适应模块和CLIP文本编码器的参数;最终采用训练好的总神经网络进行文生图。

全文数据:

权利要求:

百度查询: 电子科技大学 一种基于概念分割的终身学习文生图方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。