一种基于视觉大模型增强的开放世界目标检测方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：华南理工大学;人工智能与数字经济广东省实验室(广州)

摘要：本发明公开了一种基于视觉大模型增强的开放世界目标检测方法。所述方法利用视觉大模型对输入图像预处理，无监督的方式获取未知对象的原始伪标签，然后利用提出的基于对象重构的韦布尔模型对未知对象进行建模，实现了开放环境下对已知和未知类别的检测，减少了人工标注的成本，提高了开放世界下目标检测精度。

主权项：1.一种基于视觉大模型增强的开放世界目标检测方法，其特征在于，包括以下步骤：S1、利用视觉大模型对输入的图像进行预处理，获取未知对象的原始伪标签；S2、利用基于对象重构的韦布尔模型，对前景和背景区域建模，并且为伪未知对象计算软标签，估计未知对象的可能性得分，判断未知对象是否是真实未知对象；根据不同图像中前景和背景出现的特征频率不同，从特征频率的角度考量，背景区域和前景区域分别形成两个不同的分布，基于对象重构的韦布尔模型ORW中，基于数据重构的自动编码器学习频率信息，并通过先验概率分布来建模重构误差的两个不同分布，采用韦布尔分布用作基于对象重构的韦布尔模型ORW中的先验模型；基于对象重构的韦布尔模型ORW对前景和背景区域建模，并且为伪未知对象计算软标签，估计未知对象的可能性得分；对前景和背景区域建模，基于对象重构的韦布尔模型ORW首先使用SAM分割图像中所有物体，根据掩膜生成所有对象的候选框；然后使用骨干网络对输入图像I提取特征图F，为了充分表示对象语义信息，将SAM生成的所有对象的候选框映射到特征图中，每个对象的候选框的特征向量表示感受野内的区域；基于对象重构的韦布尔模型ORW中，利用自动编码器来重构这些区域特征，即每个对象的候选框的特征向量；自动编码器的编码器和解码器分别记为E和D；编码器首先将特征图F映射到一个具有低维度的潜在空间特征图Flatent，解码器将潜在空间特征图Flatent重构为原始维度，得到重构特征Frec，使用l2距离来衡量每个对象的重构误差，并将每个对象的重构误差作为自动编码器的训练损失，该过程可以表示如下：Frec＝DEF；1 其中，Lautoencoder表示自动编码器的训练损失，表示输入图像I属于尺寸维度为HI×WI×3的矩阵，HF表示输入图像I的高度，WF表示输入图像I的宽度，C表示输入图像I的通道数，表示潜在空间特征图Flatent属于尺寸维度为HF×WF×Clatent的矩阵，Clatent表示潜在空间特征图Flatent的通道数，[i,j]表示特征图的在特征空间中的位置i,j,Frec[i,j]和F[i,j]表示位置[i,j]中具有C维的区域特征；L2表示l2范数损失；每个对象的区域特征表示相应位置的锚框的特征，根据每个对象相应的锚框为每个对象分配前景背景标签；当自动编码器训练到收敛状态时，通过计算每个对象的l2距离，即E[i,j]＝L2Frec[i,j],F[i,j],得到重构误差图E，通过从MS-COCO数据集的训练集中随机抽取已知和背景区域中的对象，收集一组重构误差，分别记为εkn和εbg；利用从已知对象的样本中抽取的重构误差来估计所有前景区域的分布；已知区域和背景区域的韦布尔分布分别记为fkn和fbg，具体形式如下：其中，re表示样本对象的重构误差值；f是指数化韦布尔分布的概率密度函数，a和c是概率密度函数形状参数；通过基于前景εkn和背景区域εbg的采样重构误差，使用最大似然估计MLE计算出最优的a和c；基于对象重构的韦布尔模型ORW中，计算伪未知对象软标签，并估计未知对象的可能性得分，在对前景和背景区域的分布进行建模后，使用概率函数fkn和fbg来估计未知对象成为真正未知对象的可能性，具体如下：给定图像I中的一个伪未知对象punk，使用RoIAlign操作将punk的重构误差池化成一个标量值，如下所示：repunk＝RAE,punk4其中，repunk是伪未知对象punk的重构误差值；RA表示RoIAlign操作，RoIAlign全称RegionofInterestAlign，是一种用于目标检测中的特征对齐操作；表示计算得到的重构误差图；然后，使用以下方程计算软标签，该软标签spunk估计了未知对象成为真实未知对象的可能性得分：其中，fkn和fbg分别是输入的图像中已知对象和背景区域的韦布尔概率密度函数，γ是用来缩放可能性得分值的超参数；当γ——→∞时，所有原始伪标签将被丢弃，当γ——→0时，所有原始伪标签对应的未知对象将被视为真实未知对象；S3、在训练阶段，解耦目标检测器的RPN区域建议生成和ROI分类的联合训练，提升区域建议对未知类别的泛化性能，然后利用已知对象的标签和未知对象的伪标签训练目标检测器，得到基于视觉大模型增强的开放世界目标检测模型SAM-OWOD；S4、在推理阶段，输入需要进行开放世界目标检测的图像，采用基于视觉大模型增强的开放世界目标检测模型SAM-OWOD识别已知和未知类别；S5、根据提供的未知类标签，利用增量学习方法学习新类，进而循环实现开放世界目标检测。

全文数据：

权利要求：

百度查询：华南理工大学人工智能与数字经济广东省实验室(广州) 一种基于视觉大模型增强的开放世界目标检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于视觉大模型增强的开放世界目标检测方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务