首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

面向目标检测的图像清晰化处理方法 

申请/专利权人:北京航空航天大学

申请日:2022-05-23

公开(公告)日:2024-06-18

公开(公告)号:CN114998124B

主分类号:G06T5/73

分类号:G06T5/73;G06T5/00;G06N3/0464;G06N3/08;G06V10/25;G06V10/764;G06N3/0475;G06N3/045;G06N3/094

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2022.09.20#实质审查的生效;2022.09.02#公开

摘要:一种面向目标检测的图像清晰化处理方法,包括:训练循环生成对抗网络,获得降质图像域到清晰图像域的生成器1S1;从训练收敛的生成器中加载模型参数到新的生成器3,以带有目标标注信息的降质图像和清晰图像样本数据训练生成对抗网络,获得生成器S2,其中通过检测器的检测损失和检测器提取特征的对抗损失对生成器模型参数进行约束,实现目标语义层面的域迁移,通过颜色、散射、梯度等底层视觉特征的损失,对生成器模型参数进行约束,实现降质图像底层视觉特征的还原。本发明不仅提高图像视觉质量,也对后续的目标检测算法性能有显著提升,可作为视频监控系统的预处理插件,为后续目标检测算法提供清晰化图像作为输入。

主权项:1.一种面向目标检测的图像清晰化处理方法,其特征在于包括:A训练循环生成对抗网络,获得降质图像域A到清晰图像域B的场景域适应生成器G1,其中所述循环生成对抗网络模型包括两个结构相同的生成器G1、G2和两个结构相同的判别器D1,D2,包括:A1从降质图像域A和清晰图像域B中选择样本图像;A2对生成器G1与判别器D1、生成器G2与判别器D2进行对抗训练,经过多轮迭代训练,获得收敛的生成器G1,从场景感知层面对降质图像进行域迁移;B训练生成对抗网络模型,从已经训练收敛的生成器G1中加载网络参数,接着针对已经确定的检测器,以带有目标位置和类别标注的降质图像域和清晰图像域样本图像训练生成器G3,其中:所述生成对抗网络模型包括生成器G3和判别器D3,包括:B1用生成器G3,以降质图像域A中的样本图像ao为输入,生成图像a2,并把图像a2和对应的目标标注信息一起送到目标检测器中,获得目标检测器的预测框损失值、分类损失值和特征提取模块的头部特征F,并将F送到判别器D3中获得对抗损失,用预测框损失、分类损失和对抗损失构成对生成器G3语义层面的约束;B2用生成器G3,以降质图像域A中的样本图像ao为输入,生成图像a2,并对a2提取包括颜色、散射、梯度的底层视觉特征,获得损失函数值,构成对生成器G3在底层特征层面进行约束,以保证生成图像的人眼视觉质量;B3从降质图像域A和清晰图像域B中选择样本图像,对生成器G3与判别器D3进行训练,经过多轮迭代,获得收敛的生成器G3,从目标语义和底层视觉特征层面对降质图像进行了还原;C在测试阶段将降质图像作为生成器G3的输入,获得清晰化处理结果J,所述步骤A中,输入的两个图像域是非成对的降质图像和清晰图像,训练循环生成对抗模型,以获得从降质图像域到清晰图像域的生成器G1,生成器G1和G2网络结构相同,包括2个卷积层和6个残差卷积层,卷积核大小均为3,通道数均为64,填充方式均为ReflectionPad2d,除了最后1个卷积层用Tanh激活且无归一化层外,其余卷积层激活函数均为LeakRelu,并采用InstanceNorm归一化,生成器G1以降质图像域A中的样本图像ao为输入,生成接近清晰图像域B的图像a1;生成器G2以清晰图像域B中的样本图像bo为输入,生成接近降质图像域A的图像b1,判别器D1和D2网络结构相同,只包括6个卷积层,卷积核大小为4,前4个卷积层的步长为2,后2个卷积层的步长为1,判别器D1以生成器G1的生成图像a1和清晰图像域图像bo为输入,输出的单通道图像中每个像素点值表示是否属于清晰图像域B;判别器D2以生成器G2的生成图像b1和降质图像域图像ao为输入,输出的单通道图像中每个像素点值表示是否属于降质图像域A,所述步骤A2中,两组生成器\判别器间通过对抗训练损失优化网络参数:判别器的优化目标是能够准确区分输入图像属于清晰图像域B还是降质图像域A,生成器的优化目标是生成能够迷惑判别器的图像,公式1列出了生成器G1和判别器D1对抗训练的损失函数:Lossg1=Ez~A[logD1G1z]1Lossd1=Ex~B[logD1x]+Ez~A[log1-D1G1z]其中,B和A分别表示清晰图像和降质图像集合,训练数据中清晰图像样本来自于VOC2007数据集,浓雾降质图像样本来自于RTTS数据集,低照度降质图像样本来自于DarkFace数据集,模型参数优化器为Adam,学习率为1e-4,模型参数初始化方式为Xavier,迭代训练约50轮模型收敛,获得生成器G1,从感知层面对降质图像进行域迁移,所述步骤B中,输入的两个图像域是带有目标位置和类别标注的降质图像和清晰图像,损失函数约束包括两个方面:通过FasterRCNN检测器引入的目标语义特征约束和底层视觉特征的无监督约束,如公式2所示,分别从目标语义和视觉质量两个方面构成生成器G3的优化目标,以FasterRCNN检测器作为检测模块,Loss=Losscon+Losslow2其中,Losscon是目标语义损失,Losslow是底层视觉特征损失,生成器G3输入为降质图像,输出为生成的清晰化图像,判别器D3输入为G3生成的图像和清晰图像域图像样本在作为特征提取模块的FasterRCNN检测器的头部特征图,输出的单通道图像中每个像素点值表示是否属于清晰图像域B,在上述步骤B1中,语义层面的域迁移使用带目标位置标注的降质样本图像进行训练,Losscon=Lossdetect+Lossg33其中,Lossdetect和Lossg3分别是检测损失和检测器特征的对抗损失,Lossdetect=LossclsG3z+LosslocG3z4其中,G3z表示以降质图像为输入,生成器G3的输出图像,Losscls和Lossloc分别是FasterRCNN检测器的目标分类损失和预测框偏移损失,Lossg3=Ez~N1[logD3FG3z]5其中,F表示FasterRCNN检测器的第7层特征图,为512维,所述步骤B2中,视觉质量的还原依靠颜色、散射、梯度的底层视觉特征的约束,使得生成器结果图像更加符合人眼视觉质量,损失函数定义如下:losslow=lossrecon+α·losscolor+β·losshaze+γ·lossedge6其中,lossrecon、losscolor、losshaze、lossedge分别从结构、颜色、散射和边缘梯度特征方面对图像还原过程进行约束,α为8,β和γ都为0.1,各个损失函数定义如下: 其中,和分别表示降质图像和G3生成图像中每个像素位置在三通道的最大值,L1损失约束网络生成结果和原图在结构上保持一致, 其中,分别是生成图像G3z在三个颜色通道的像素均值,根据灰度世界假设,白平衡的图像其三通道均值近似相等,使用三通道均值中最大最小值之差来约束场景整体的偏色问题,losshaze=-varGrayG3z-GraymeanGraystd9其中,GrayG3z是生成图像转换的灰度图,Graymean和Graystd分别是灰度图像的均值和方差,GrayG3z-GraymeanGraystd对灰度图进行了归一化,var表示整幅图像的方差,使用该损失函数约束纹理,纹理越丰富则损失函数越小, 其中,grad表示图像梯度,通过约束梯度均值使得结果图像保持清晰的边缘,所述步骤B3中,生成器G3通过目标语义损失和底层视觉特征损失优化模型参数,判别器通过检测器特征的对抗损失优化模型参数,训练数据中清晰图像样本来自于VOC2007数据集,浓雾降质图像样本来自于RTTS数据集,低照度降质图像样本来自于DarkFace数据集,模型参数优化器为Adam,学习率为2e-5,生成器G3的模型初始参数直接从生成器G1中加载,判别器D3的模型参数使用Xavier方式初始化,迭代训练约80轮模型收敛,获得生成器G3,从目标语义和底层视觉特征层面实现了降质图像的清晰化,所述步骤C中,在测试阶段,直接以降质图像作为生成器G3模型的输入,模型推理结果作为清晰化处理图像J。

全文数据:

权利要求:

百度查询: 北京航空航天大学 面向目标检测的图像清晰化处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。