首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】自适应多教师蒸馏下基于音频的目标检测方法及系统_江南大学_202410317956.8 

申请/专利权人:江南大学

申请日:2024-03-20

公开(公告)日:2024-06-14

公开(公告)号:CN118196589A

主分类号:G06V10/82

分类号:G06V10/82;G06N3/042;G06N3/045;G06N3/0895;G06N3/096;G06V10/80;G06V10/74;G06V10/764;G10L25/03

优先权:

专利状态码:在审-公开

法律状态:2024.06.14#公开

摘要:本发明公开了自适应多教师蒸馏下基于音频的目标检测方法及系统,属于目标检测技术领域。本发明首先加入声音模态,结合RGB、深度和红外三个教师模态,利用知识蒸馏的方式指导音频学生,提高面对复杂环境的鲁棒性;此外针对模态差异和教师模型检测性能不同的问题,设计了一个自适应多教师蒸馏框架,提出了基于角度的自适应多教师损失,利用教师和学生中间层特征间的潜在关系作为教师重要性权重的指标,利用余弦相似度计算加权后的教师网络和学生网络逻辑输出层的角度损失,抑制中间层特征可能带来的无用信息和噪声信息,降低标签噪声,最后在多模态视听检测MAVD数据集中对网络进行训练和测试,结果表明本发明的检测精度优于基线网络。

主权项:1.一种自监督目标检测方法,其特征在于,所述方法采用自适应多教师蒸馏下基于音频的自监督目标检测网络实现目标检测,所述目标检测网络包括:RGB教师网络、深度教师网络、红外教师网络和音频学生网络;所述RGB教师网络是预训练好的以RGB图像为输入的目标检测网络,所述深度教师网络是预训练好的以深度图像为输入的目标检测网络,所述红外教师网络是预训练好的以红外图像为输入的目标检测网络;所述音频学生网络以未标记的音频数据作为输入,从预先训练完成的教师网络中提取知识进行训练,所述音频学生网络训练的损失函数为:Ltotal=LOD+LAAMTLOD=Lfocal+Lsmooth其中,LOD为目标检测损失,LAAMT为基于角度的自适应多教师损失,Lfocal为焦点损失,Lsmooth为平滑损失;所述基于角度的自适应多教师损失LAAMT的计算方法为: 其中,lH表示Huber损失,Δ表示角度度量,表示第i个输入对应的加权后教师软标签,计算方法为: 其中,表示第i个图像对应的第t个教师的软标签,ωt,i表示第i个输入对应的第t个教师的权重,M∈[1,2,3]对应教师数量;所述第i个输入对应的第t个教师的权重的计算方法为: 其中,θt,i表示第t个教师对第i个输入的潜在因子,KLdiv·表示KL散度计算公式,C·表示特征融合,U·表示上采样,表示学生网络对第i个图像的第q层特征值,表示第t个教师网络对第i个输入的第q层特征值。

全文数据:

权利要求:

百度查询: 江南大学 自适应多教师蒸馏下基于音频的目标检测方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。