首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

利用文本到图像扩散模型实现短语级定位的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:厦门大学

摘要:本发明公开一种利用文本到图像扩散模型实现短语级定位的方法,基于PNG任务,引入DiffPNG框架,将PNG任务视为一个定位‑分割‑细化的解决范式,DiffPNG框架主要包括特征提取器、LSP模块、主语词聚焦的特征聚合器和SMR模块;具体执行以下步骤:特征提取器获取图像潜在噪声表示和文本特征编码并输入扩散模型;LSP模块在逆扩散过程中利用交叉注意力来识别每个实例的位置并获得高置信度的像素点作为锚点,对锚点使用自注意力进行聚合并生成分割掩码;主语词聚焦的特征聚合器基于相似性进行自适应特征聚合,使用点乘法计算PNG基准数据集的名词短语中每个词特征与最后一个词特征之间的成对相似度;SMR模块筛选出由SAM生成的候选掩码与分割掩码合并,生成最终的输出结果。

主权项:1.一种利用文本到图像扩散模型实现短语级定位的方法,其特征在于:基于PNG任务,引入DiffPNG框架,将PNG任务视为一个定位-分割-细化的解决范式,DiffPNG框架主要包括特征提取器、LSP模块、主语词聚焦的特征聚合器和SMR模块;具体执行以下步骤:步骤1、特征提取器:由特征提取器通过“空文本反转”技术获取图像潜在噪声表示,通过文本分段策略获取文本特征编码,然后将图像潜在噪声表示和文本特征编码输入扩散模型;步骤2、LSP模块:由LSP模块实现将定位和分割解耦,在逆扩散过程中利用交叉注意来识别每个实例的位置并获得高置信度的像素点作为锚点,随后利用自注意力将这些锚点聚合起来并生成分割掩码;步骤3、主语词聚焦的特征聚合器:由主语词聚焦的特征聚合器基于相似性进行自适应特征聚合,使用点乘法计算PNG基准数据集的名词短语中每个词特征与最后一个词特征之间的成对相似度;步骤4、SMR模块:由SMR模块筛选出由SAM生成的候选掩码与分割掩码进行合并,生成最终的输出结果;所述特征提取器执行的步骤包括:步骤1.1、视觉模态:给定个采样步长,空文本反转的DDIM反转模块输出噪声潜在变量,空文本反转输出,其中表示时间步;初始化时等于,将空文本反转损失最小化,其计算公式表示为: ;这个公式的含义是通过优化时间步的无条件输入的特征编码,使得时间步的空文本反转输出接近于DDIM反转模块输出噪声潜在变量;其中上标是反转inversion的缩写,指的是这个公式在计算反转过程的损失;表示将、和映射到的函数,表示第时间步的无条件输入的特征编码,表示控制条件;在对时间的无条件特征编码进行次迭代优化后,用当前的噪声潜在变量更新倒置的噪声潜在变量,其计算公式表示为: ;步骤1.2、语言模态:利用文本分段策略通过CLIP文本编码器将文本的段落分成多个子段落,其中表示段落中子段落的数量,表示文本中的第个句子的序号;每个子段落的长度不超过CLIP文本编码器的最大长度;将子段落输入CLIP文本编码器生成文本特征编码的长篇叙事文本,其中表示第个句子中文本的特征编码;所述LSP模块执行的步骤包括:定义在视觉和文本输入之间建立联系的对于一个句子中第个名词短语的第层的自注意力图和交叉注意力图,两者的计算公式表示为: ; ;其中表示隐变量的查询向量,表示隐变量的键向量,表示第层的特征维度,和分别表示特征图的高和宽,表示文本特征编码的键向量;在每个名词短语的交叉注意力图上选择一些置信度高于一定阈值的像素点作为锚点,这些锚点被定义为: ;其中和分别是第个名词短语的锚点集和每个交叉注意层的平均交叉注意力图,和分别表示像素点x、y轴索引坐标;将每个锚点的自注意力掩码进行聚合,并应用最小-最大归一化,生成如下增强掩码: ;其中是通过自注意力增强的增强掩码,是每个选定的自注意力层的平均自注意力,是最小-最大归一化操作;对增强掩码进行二值化处理,得到分割结果为: ;其中表示对于第个名词短语生成的二值掩码结果,表示二值化处理的阈值;所述主语词聚焦的特征聚合器执行的步骤包括:定义表示一个句子的第个名词短语的词总数,表示通过CLIP文本编码器获得的第个单词的词特征,其中;使用点乘法计算第个名词短语中每个词特征与最后一个词特征之间的成对相似度,得到第个名词短语的相似度得分向量;通过Softmax运算将压缩到,并计算第个名词短语的聚合注意力掩码,其计算公式表示为: ;其中是第个名词短语中第个单词的输入注意力掩码,表示相似度得分;所述SMR模块执行的步骤包括:在不提供任何提示的情况下将图像输入到冻结的SAM中,利用SAM的“segmenteverything”功能获得多个候选掩码,并将其存储在候选池中;对于图像,本发明构建的候选掩码池如下: ;其中表示由SAM生成的第个掩码;然后,本发明提出了两种匹配分数的计算方法和分别用于解决分割不足和分割过度的情况,其计算公式分别表示为: ; ;其中和分别是第个名词短语的自注意力增强图的第个像素值和第个SAM候选掩码中的第个像素值,是防止分母为零的平滑系数;选择匹配得分高于匹配阈值的候选掩码放入匹配掩码池,其计算公式表示为: ;其中是匹配掩码池的大小;匹配完成后,如果匹配掩码池中有SAM候选掩码,由SMR模块计算这些SAM候选掩码的联合,得到精炼掩码;如果由SAM生成的候选掩码都无法与匹配掩码池进行匹配,那么通过自注意力增强的掩码将被视为最终掩码,为最终的输出结果,其计算公式表示为: ;其中表示实数空间,表示空集合。

全文数据:

权利要求:

百度查询: 厦门大学 利用文本到图像扩散模型实现短语级定位的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。