买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:大连理工大学
摘要:本发明属于图像信息处理技术领域,公开了一种目标跨模态表达辅助的遥感场景文本‑图像生成方法。本方法先利用预训练图像文本联合表达模型的跨模态特征关联能力,为目标图像条件自适应地匹配对应的文本模态表达,通过目标图像到目标文本的跨模态转化避免布局的不确定性对目标信息引入产生的干扰;再将目标文本特征与原文本条件特征进行集成,利用目标信息对文本条件进行修饰与扩充;最后经补充的文本特征作为控制条件引入图像生成流程,对生成图像进行调控。本发明在避免额外布局先验引入的同时,有效实现利用图像目标条件对生成图像中目标局部的针对性增强。
主权项:1.一种目标跨模态表达辅助的遥感场景文本-图像生成方法,其特征在于,包括如下步骤:该目标跨模态表达辅助的遥感场景文本-图像生成方法的整个训练过程分为目标自适应跨模态表述网络的训练阶段和图像对抗生成网络的训练阶段;(1)目标自适应跨模态表述训练阶段以预训练的CLIP文本编码器和预训练的CLIP图像编码器为基础构建目标自适应跨模态表述网络,预训练的CLIP文本编码器和预训练的CLIP图像编码器均由12个Transformer自注意力层构成;再构建一个文本描述转换模型,由多个映射器及一组可学习向量组成,分别用于从目标图像的多尺度特征自适应生成目标特定的文本表述和根据目标类别学习类不变的目标表述;每个映射器包括一个11卷积和一个全连接层;具体为:记遥感场景文本-图像数据集,其中为第幅图像,为图像对应的第个文本描述,为每幅图像对应文本描述的数量,为文本-图像对的总数;从全体图像数据集合中每幅图像中截取目标局部图像构成全体目标图像集合,为图像中选取的目标图像总数;目标局部图像的选取标准为:在每幅图像的文本描述中重复出现的目标、图像中的视觉重心目标或图像中具有表征场景类型的目标;从全体目标图像集合中采样目标图像,经过预训练的CLIP图像编码器提取目标图像模态的多尺度中间特征以及最终的图像模态特征,其中表示第层输出的特征图,为选取的特征层数,、、分别为特征图的宽、高与通道数表示提取目标图像的最终图像模态特征,为目标图像模态的长度;对于提取到的目标图像模态的多尺度中间特征,通过一组映射器对其进行降维和映射,得到与目标图像对应的目标特定表述,其中是第层目标图像模态对应的文本表述,为每个文本表述的特征长度;同时为每一类目标图像设计一组可学习的类不变目标表述,其中,代表目标图像的类别,为类不变目标表述个数;是一组在同类目标图像间共享的可学习向量,用于表述同类别目标图像共性信息的文本模态表述;将类不变目标表述和目标特定表述进行连接,得到针对目标图像的文本模态表述;定义为: (1)其中,是目标图像对应类别的文本编码,用于稳固文本表述;将目标图像的文本模态表述输入预训练的CLIP文本编码器提取目标图像的文本模态特征;利用对比损失约束目标图像的文本模态特征与目标图像模态特征,定义为: (2)其中,是目标图像的分布,同时有: (3)其中,表示余弦相似度计算,为温度超参数;(2)图像对抗生成训练阶段从遥感场景文本-图像数据集中采样一个真实图像,从真实图像对应的文本描述集合中采样一条文本描述条件,同时从其中真实图像对应的目标图像集合中随机选取一个目标图像条件,从高斯分布中随机采样一个长度为的噪声向量;固定目标自适应跨模态表述网络,输入目标图像条件将其转化为目标图像的文本模态表述,进一步输入CLIP文本编码器得到目标文本特征;同时将文本描述条件输入预训练的CLIP文本编码器得到全局文本特征;噪声向量、全局文本特征以及目标文本特征拼接得到目标增强的文本条件: (4)其中,表示特征拼接操作;生成网络以噪声向量、目标增强的文本条件为输入,输出生成结果图像,其结构为:噪声向量经一层全连接层后重塑向量为空间尺寸77、通道维度64的初始生成特征;将初始特征输入4个包含DFBlock的融合模块,将目标增强的文本条件引入初始特征得到生成中间特征,其中两个DFBlock与两次卷积操作交替串联构成一个融合模块;每个DFBlock中,分别利用两个多层感知机、从目标增强的文本条件预测一组通道缩放参数和偏置参数,表示为: (5)对于初始特征,利用缩放参数和偏置参数进行通道层次的仿射变换操作,表示为: (6)其中,表示仿射变换操作,是初始特征第个通道的特征分量,与分别为缩放参数和偏置参数第个通道的分量;初始特征经融合模块利用目标增强的文本条件强化条件信息进而形成生成中间特征;输入预训练的CLIP图像编码器,结合利用目标增强的文本条件通过一层全连接层预测的一组提示向量附加在生成中间特征中,得到结合视觉模态信息的生成中间特征;最后,结合视觉模态信息的生成中间特征经过6个由上采样操作连接的融合模块,继续利用目标增强的文本条件引导生成的同时使特征空间尺寸向图像尺寸逼近,得到最终图像生成结果输出;利用目标增强的文本条件控制和引导生成网络得到图像生成结果,生成结果与真实图像作为待判别图像输入判别网络进行判别;其中判别网络的结构为:待判决图像输入预训练的CLIP图像编码器得到一系列中间视觉特征,其中为选择视觉特征层数,为预训练的CLIP图像编码器提取判决图像得到的第层中间视觉特征;从第一层视觉特征开始,将所有层中间视觉特征图进行整合,方式为:将输入两个搭配ReLU激活的卷积层后与下一层视觉特征层相加,结果继续输入两个搭配ReLU激活的卷积层,如此操作直至与最后一层视觉特征完成整合,得到整合的多尺度图像特征;将全局文本特征、目标文本特征按通道拼接后在空间上进行复制使其与整合的多尺度图像特征具有一直空间尺寸,随后将其与整合的多尺度图像特征进行拼接,输入单路判别器预测得到判别结果输出;目标跨模态表达辅助的遥感场景文本-图像生成网络整体采用对抗损失进行训练;生成网络与判别网络在每一轮次训练中采取交替优化的策略进行参数更新,对抗生成训练阶段判别网络和生成网络的损失函数分别为: (7) (8)其中,是从高斯分布采样的随机噪声,为全局文本特征,为目标文本特征,为真实图像;为生成网络,为判别网络,为生成图像与文本条件间的CLIP相似度;与为控制梯度惩罚的超参数,系数用于调整文本图像相似度损失的权重;、、分别表示生成数据分布、真实数据分布、错误匹配数据分布;、分别为梯度在与方向上的分量,为数学期望。
全文数据:
权利要求:
百度查询: 大连理工大学 目标跨模态表达辅助的遥感场景文本-图像生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。