Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种开放词汇目标检测方法、系统、设备及介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:青岛理工大学

摘要:本发明提供了一种开放词汇目标检测方法、系统、设备及介质,其属于目标检测技术领域,所述方案通过将Mamba引入目标检测任务中,通过Mamba替代传统的Transformer进行图像文本的融合,采用基于Mamba的图像文本融合模块能够有效提高图像文本融合的准确度,同时,能够有效降低图像文本融合过程中的计算量,提高计算效率,进而有效提高目标检测精度;在基于Mamba的图像文本融合的基础上,所述方案引入了基于多头注意力Transformer模块来增强图像和文本特征之间的对齐,确保了多模态数据的更全面和准确的表示;通过采用多头注意力机制,该模块有效地捕捉了复杂的依赖关系,提升了检测的整体性能。

主权项:1.一种开放词汇目标检测方法,其特征在于,包括:获取待目标检测的图像及其文本描述;基于所述图像及其文本描述,利用预先训练的基于深度学习的目标检测模型,获得目标检测结果;其中,所述基于深度学习的目标检测模型具体执行如下处理过程:分别提取不同尺度的图像特征和文本特征;基于每一尺度的图像特征和文本特征,分别利用对应的基于Mamba的图像文本融合模块进行图像文本融合,获得不同尺度下对应的图像文本融合特征;以不同尺度下的图像文本融合特征作为目标检测头的输入,获得图像的目标检测结果;所述目标检测头具体执行如下过程:基于不同尺度下的图像文本融合特征以及文本特征,利用基于多头注意力机制的神经网络模型进行图像和文本的二次融合,并通过二次融合结果与文本特征的相似度计算进行图像和文本特征的对齐;基于对齐后的图像和文本特征,通过边界框模块,获得目标检测结果;所述图像文本融合模块,具体执行如下处理过程:对于输入的任一尺度的图像特征和文本特征,对图像特征顺序进行二维卷积、Flatten以及Transpose处理,将处理后的图像特征与文本特征进行拼接;将拼接后的特征作为Mamba模块的输入,并对Mamba模块的输出结果顺序进行一维卷积和二维卷积处理,获得图像文本融合特征;所述图像和文本的二次融合,具体为:以图像文本融合特征和文本特征作为输入,利用基于多头注意力机制的Transformer模块进行图像和文本的进一步融合;所述基于多头注意力机制的Transformer模块具体执行如下处理过程:对输入的图像文本融合特征顺序进行Reshape和Linear操作,获得查询向量;对输入的文本特征分别进行第一Linear和第二Linear操作,获得键向量和值向量;基于查询向量和经Reshape和Transpose操作处理后的键向量的点乘,获得注意力特征;将所述注意力特征进行归一化处理,并与值向量进行点乘后顺序经Transpose、Linear、Reshape和Transpose进行处理。

全文数据:

权利要求:

百度查询: 青岛理工大学 一种开放词汇目标检测方法、系统、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。