买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:河海大学;华能澜沧江水电股份有限公司;中国电建集团昆明勘测设计研究院有限公司
摘要:本发明公开一种基于双向跨模态注意力机制的RGB‑D大坝缺陷图像语义分割方法,对输入的RGB‑D大坝图像进行特征提取,利用两个并行的分层Transformer网络分阶段提取多种分辨率大小的RGB图像特征图和深度图像特征图;将各阶段提取到的两种特征图一起输送到特征校准模块CA‑FCM,利用通道注意力机制对来自两种模态的特征进行相互校准,过滤彼此的噪声信息;将同一级别校准后的特征送入特征融合模块CM‑FFM,基于跨模态注意力机制进一步地完善RGB特征图和深度特征图,并融合成单个特征图;将融合后的特征图由多层感知机组成的解码器进行解码,转换成语义分割图。本发明解决了对RGB‑D大坝缺陷图像特征提取不充分,以及无法有效融合RGB特征图和深度特征图的问题,从而提高了RGB‑D大坝缺陷图像语义分割的精度。
主权项:1.一种基于双向跨模态注意力机制的RGB-D大坝缺陷图像语义分割方法,其特征在于,方法处理的对象为大坝缺陷的RGB图像和深度图像两种模态,包括如下步骤:1对输入的RGB-D大坝缺陷图像进行特征提取,利用两个并行的分层Transformer网络分阶段提取多尺度的RGB图像特征图和深度图像特征图;2将各阶段提取到的两种模态的特征图一起输送到特征校准模块CA-FCM,利用通道注意力机制对来自两种模态的特征进行相互校准,过滤彼此的噪声信息;3将同一级别校准后的特征送入特征融合模块CM-FFM,基于跨模态注意力机制进一步地完善RGB特征图和深度特征图,并融合成单个特征图;4将融合后的特征图由多层感知机组成的解码器进行解码,完成对大坝缺陷图像的语义分割所述3中,基于跨模态注意力机制进一步地完善大坝缺陷图像的RGB特征图和深度特征图,并融合成单个特征图,具体步骤如下:3.1校准后的RGB特征图被输送至1×1的卷积层,产生三个新特征图和同理,深度分支上也会产生三个新特征图和3.2通过对和进行矩阵相乘得到关于RGB图像的自注意力权重,再利用softmax函数将权重范围限制在0,1,接着再用单位矩阵E减去自注意力权重矩阵得到跨模态注意力向量深度分支上的操作相同: 其中表示对和转置,表示深度分支上的跨模态注意力向量,表示矩阵相乘;3.3将跨模态注意力向量与特征图相乘,并与原过滤噪声后的特征图相加,得到互补信息增强后的特征图F′rgb,深度分支同理: 3.4在对特征图作互补信息增强之后,CM-FFM后续直接将F′rgb和F′depth进行拼接得到新特征图F′fuse;最后该新特征图被输入至残差块中得到融合后的特征图Ffuse。
全文数据:
权利要求:
百度查询: 河海大学 华能澜沧江水电股份有限公司 中国电建集团昆明勘测设计研究院有限公司 基于双向跨模态注意力机制的RGB-D大坝缺陷图像语义分割方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。