利用文本到图像扩散模型实现短语级定位的方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：厦门大学

摘要：本发明公开一种利用文本到图像扩散模型实现短语级定位的方法，基于PNG任务，引入DiffPNG框架，将PNG任务视为一个定位‑分割‑细化的解决范式，DiffPNG框架主要包括特征提取器、LSP模块、主语词聚焦的特征聚合器和SMR模块；具体执行以下步骤：特征提取器获取图像潜在噪声表示和文本特征编码并输入扩散模型；LSP模块在逆扩散过程中利用交叉注意力来识别每个实例的位置并获得高置信度的像素点作为锚点，对锚点使用自注意力进行聚合并生成分割掩码；主语词聚焦的特征聚合器基于相似性进行自适应特征聚合，使用点乘法计算PNG基准数据集的名词短语中每个词特征与最后一个词特征之间的成对相似度；SMR模块筛选出由SAM生成的候选掩码与分割掩码合并，生成最终的输出结果。

主权项：1.一种利用文本到图像扩散模型实现短语级定位的方法，其特征在于：基于PNG任务，引入DiffPNG框架，将PNG任务视为一个定位-分割-细化的解决范式，DiffPNG框架主要包括特征提取器、LSP模块、主语词聚焦的特征聚合器和SMR模块；具体执行以下步骤：步骤1、特征提取器：由特征提取器通过“空文本反转”技术获取图像潜在噪声表示，通过文本分段策略获取文本特征编码，然后将图像潜在噪声表示和文本特征编码输入扩散模型；步骤2、LSP模块：由LSP模块实现将定位和分割解耦，在逆扩散过程中利用交叉注意来识别每个实例的位置并获得高置信度的像素点作为锚点，随后利用自注意力将这些锚点聚合起来并生成分割掩码；步骤3、主语词聚焦的特征聚合器：由主语词聚焦的特征聚合器基于相似性进行自适应特征聚合，使用点乘法计算PNG基准数据集的名词短语中每个词特征与最后一个词特征之间的成对相似度；步骤4、SMR模块：由SMR模块筛选出由SAM生成的候选掩码与分割掩码进行合并，生成最终的输出结果；所述特征提取器执行的步骤包括：步骤1.1、视觉模态：给定个采样步长，空文本反转的DDIM反转模块输出噪声潜在变量，空文本反转输出，其中表示时间步；初始化时等于，将空文本反转损失最小化，其计算公式表示为：；这个公式的含义是通过优化时间步的无条件输入的特征编码，使得时间步的空文本反转输出接近于DDIM反转模块输出噪声潜在变量；其中上标是反转inversion的缩写，指的是这个公式在计算反转过程的损失；表示将、和映射到的函数，表示第时间步的无条件输入的特征编码，表示控制条件；在对时间的无条件特征编码进行次迭代优化后，用当前的噪声潜在变量更新倒置的噪声潜在变量，其计算公式表示为：；步骤1.2、语言模态：利用文本分段策略通过CLIP文本编码器将文本的段落分成多个子段落，其中表示段落中子段落的数量，表示文本中的第个句子的序号；每个子段落的长度不超过CLIP文本编码器的最大长度；将子段落输入CLIP文本编码器生成文本特征编码的长篇叙事文本，其中表示第个句子中文本的特征编码；所述LSP模块执行的步骤包括：定义在视觉和文本输入之间建立联系的对于一个句子中第个名词短语的第层的自注意力图和交叉注意力图，两者的计算公式表示为：；；其中表示隐变量的查询向量，表示隐变量的键向量，表示第层的特征维度，和分别表示特征图的高和宽，表示文本特征编码的键向量；在每个名词短语的交叉注意力图上选择一些置信度高于一定阈值的像素点作为锚点，这些锚点被定义为：；其中和分别是第个名词短语的锚点集和每个交叉注意层的平均交叉注意力图，和分别表示像素点x、y轴索引坐标；将每个锚点的自注意力掩码进行聚合，并应用最小-最大归一化，生成如下增强掩码：；其中是通过自注意力增强的增强掩码，是每个选定的自注意力层的平均自注意力，是最小-最大归一化操作；对增强掩码进行二值化处理，得到分割结果为：；其中表示对于第个名词短语生成的二值掩码结果，表示二值化处理的阈值；所述主语词聚焦的特征聚合器执行的步骤包括：定义表示一个句子的第个名词短语的词总数，表示通过CLIP文本编码器获得的第个单词的词特征，其中；使用点乘法计算第个名词短语中每个词特征与最后一个词特征之间的成对相似度，得到第个名词短语的相似度得分向量；通过Softmax运算将压缩到，并计算第个名词短语的聚合注意力掩码，其计算公式表示为：；其中是第个名词短语中第个单词的输入注意力掩码，表示相似度得分；所述SMR模块执行的步骤包括：在不提供任何提示的情况下将图像输入到冻结的SAM中，利用SAM的“segmenteverything”功能获得多个候选掩码，并将其存储在候选池中；对于图像，本发明构建的候选掩码池如下：；其中表示由SAM生成的第个掩码；然后，本发明提出了两种匹配分数的计算方法和分别用于解决分割不足和分割过度的情况，其计算公式分别表示为：；；其中和分别是第个名词短语的自注意力增强图的第个像素值和第个SAM候选掩码中的第个像素值，是防止分母为零的平滑系数；选择匹配得分高于匹配阈值的候选掩码放入匹配掩码池，其计算公式表示为：；其中是匹配掩码池的大小；匹配完成后，如果匹配掩码池中有SAM候选掩码，由SMR模块计算这些SAM候选掩码的联合，得到精炼掩码；如果由SAM生成的候选掩码都无法与匹配掩码池进行匹配，那么通过自注意力增强的掩码将被视为最终掩码，为最终的输出结果，其计算公式表示为：；其中表示实数空间，表示空集合。

全文数据：

权利要求：

百度查询：厦门大学利用文本到图像扩散模型实现短语级定位的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：谐振式电源供应器的同步整流控制方法

下一篇：一种耳道清洗装置

相关技术

谐振式电源供应器的同步整流控制方法

一种耳道清洗装置

一种避免结焦的草酸酯蒸发器及草酸酯气化方法

一种基感应加热及淬火的三维自由成形设备及方法

一种双头机床的半导体芯片夹取装置

一种混凝土养护设备及养护方法

一种可集成于漂流浮标的多自由度波浪能发电装置

用于涡轮发动机的密封支撑组件

沸点检测方法、装置、存储介质、程序产品和烹饪设备

一种像控点坐标生成方法、系统、设备及存储介质

螺纹钢及其轧制方法、螺纹钢钢液的制备方法

一种全固废水下不分散混凝土及其制备方法

模型相关技术

模型量化策略确定及模型量化方法、装置、介质和设备_网易(杭州)网络有限公司_202410584724.9

基于大模型的图像生成方法、模型训练方法、装置及设备_北京百度网讯科技有限公司_202410961990.9

公式识别模型的训练方法、装置和用于模型训练的装置_北京搜狗科技发展有限公司_202111156277.X

一种基于业务坐标模型的业务资源模型管理方法及系统_北京侏罗纪软件股份有限公司_202410811391.9

训练生成模型的方法和装置_支付宝(杭州)信息技术有限公司_202410692380.3

模型训练、图像分类方法和装置_北京京东振世信息技术有限公司_202111271211.5

一种建筑模型展示装置_安徽荣居建筑工程有限公司_202420009513.8

物联数据模型管理系统_交控科技股份有限公司_202210157142.3

一种建筑模型构建装置_芜湖青境科技有限公司_202410723568.X

一种口腔教学模型_上海交通大学医学院附属第九人民医院_202411013638.9

实现相关技术

一种基于MEC边缘云的智能镜实现方法及其实现系统_南京熊猫电子制造有限公司_202411013030.6

可实现快速组装的内窥镜_山东威高宏瑞医学科技有限公司_202310299065.X

一种复合磁体结构及其实现方法_横店集团东磁股份有限公司_202410996173.7

一种实现kubernetes集群联邦的方法_启明信息技术股份有限公司_202311672910.X

一种可实现安全点燃的新型烟花_浏阳市兴圣烟花有限公司_202420520811.3

一种居民大楼安检系统的实现方法_常熟理工学院_202410917440.7

一种自定义接口的实现方法_成都医星科技有限公司_202411031577.9

实现基于RS485及CAN总线实现设备通信组网的系统、方法、装置、处理器及存储介质_西蒙电气(中国)有限公司_202310281299.1

在用于快速光学检查目标的系统中实现的光学系统_ASML荷兰有限公司_202280091897.6

一种车载音响系统及其实现自定义声音的方法_广州汽车集团股份有限公司_202110199370.2

扩散相关技术

一种磁体晶界扩散装置及扩散磁体制造方法_北京中科三环高技术股份有限公司_202411001354.8

一种自扩散式平面扩散系数测量方法_浙江师范大学_202410815699.0

光学扩散膜及偏光片_深圳市华星光电半导体显示技术有限公司_202410813204.0

一种气体扩散层检测装置_江苏派行新能源科技有限公司_202420233351.6

基于扩散模型域适应的深海潜水器故障诊断方法及系统_山东大学_202410932066.8

一种融合扩散模型与转换器的遥感图像语义分割方法_山东理工大学_202411161498.X

一种燃料电池气体扩散层用碳纸的制备方法_湖南隆深氢能科技有限公司_202311729505.7

一种扩散器叶片更换修复用自动焊接装置_成都晨发泰达航空科技股份有限公司_202410800147.2

一种基于流形约束扩散模型的人脸图像复原方法及系统_华侨大学_202410661695.1

城市监控视角下基于去噪扩散模型的内涝检测方法与装置_南昌航空大学_202410944776.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

利用文本到图像扩散模型实现短语级定位的方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务