目标跨模态表达辅助的遥感场景文本-图像生成方法

导航：龙图腾网> 最新专利技术> 目标跨模态表达辅助的遥感场景文本-图像生成方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：大连理工大学

摘要：本发明属于图像信息处理技术领域，公开了一种目标跨模态表达辅助的遥感场景文本‑图像生成方法。本方法先利用预训练图像文本联合表达模型的跨模态特征关联能力，为目标图像条件自适应地匹配对应的文本模态表达，通过目标图像到目标文本的跨模态转化避免布局的不确定性对目标信息引入产生的干扰；再将目标文本特征与原文本条件特征进行集成，利用目标信息对文本条件进行修饰与扩充；最后经补充的文本特征作为控制条件引入图像生成流程，对生成图像进行调控。本发明在避免额外布局先验引入的同时，有效实现利用图像目标条件对生成图像中目标局部的针对性增强。

主权项：1.一种目标跨模态表达辅助的遥感场景文本-图像生成方法，其特征在于，包括如下步骤：该目标跨模态表达辅助的遥感场景文本-图像生成方法的整个训练过程分为目标自适应跨模态表述网络的训练阶段和图像对抗生成网络的训练阶段；（1）目标自适应跨模态表述训练阶段以预训练的CLIP文本编码器和预训练的CLIP图像编码器为基础构建目标自适应跨模态表述网络，预训练的CLIP文本编码器和预训练的CLIP图像编码器均由12个Transformer自注意力层构成；再构建一个文本描述转换模型，由多个映射器及一组可学习向量组成，分别用于从目标图像的多尺度特征自适应生成目标特定的文本表述和根据目标类别学习类不变的目标表述；每个映射器包括一个11卷积和一个全连接层；具体为：记遥感场景文本-图像数据集，其中为第幅图像，为图像对应的第个文本描述，为每幅图像对应文本描述的数量，为文本-图像对的总数；从全体图像数据集合中每幅图像中截取目标局部图像构成全体目标图像集合，为图像中选取的目标图像总数；目标局部图像的选取标准为：在每幅图像的文本描述中重复出现的目标、图像中的视觉重心目标或图像中具有表征场景类型的目标；从全体目标图像集合中采样目标图像，经过预训练的CLIP图像编码器提取目标图像模态的多尺度中间特征以及最终的图像模态特征，其中表示第层输出的特征图，为选取的特征层数，、、分别为特征图的宽、高与通道数表示提取目标图像的最终图像模态特征，为目标图像模态的长度；对于提取到的目标图像模态的多尺度中间特征，通过一组映射器对其进行降维和映射，得到与目标图像对应的目标特定表述，其中是第层目标图像模态对应的文本表述，为每个文本表述的特征长度；同时为每一类目标图像设计一组可学习的类不变目标表述，其中，代表目标图像的类别，为类不变目标表述个数；是一组在同类目标图像间共享的可学习向量，用于表述同类别目标图像共性信息的文本模态表述；将类不变目标表述和目标特定表述进行连接，得到针对目标图像的文本模态表述；定义为：（1）其中，是目标图像对应类别的文本编码，用于稳固文本表述；将目标图像的文本模态表述输入预训练的CLIP文本编码器提取目标图像的文本模态特征；利用对比损失约束目标图像的文本模态特征与目标图像模态特征，定义为：（2）其中，是目标图像的分布，同时有：（3）其中，表示余弦相似度计算，为温度超参数；（2）图像对抗生成训练阶段从遥感场景文本-图像数据集中采样一个真实图像，从真实图像对应的文本描述集合中采样一条文本描述条件，同时从其中真实图像对应的目标图像集合中随机选取一个目标图像条件，从高斯分布中随机采样一个长度为的噪声向量；固定目标自适应跨模态表述网络，输入目标图像条件将其转化为目标图像的文本模态表述，进一步输入CLIP文本编码器得到目标文本特征；同时将文本描述条件输入预训练的CLIP文本编码器得到全局文本特征；噪声向量、全局文本特征以及目标文本特征拼接得到目标增强的文本条件：（4）其中，表示特征拼接操作；生成网络以噪声向量、目标增强的文本条件为输入，输出生成结果图像，其结构为：噪声向量经一层全连接层后重塑向量为空间尺寸77、通道维度64的初始生成特征；将初始特征输入4个包含DFBlock的融合模块，将目标增强的文本条件引入初始特征得到生成中间特征，其中两个DFBlock与两次卷积操作交替串联构成一个融合模块；每个DFBlock中，分别利用两个多层感知机、从目标增强的文本条件预测一组通道缩放参数和偏置参数，表示为：（5）对于初始特征，利用缩放参数和偏置参数进行通道层次的仿射变换操作，表示为：（6）其中，表示仿射变换操作，是初始特征第个通道的特征分量，与分别为缩放参数和偏置参数第个通道的分量；初始特征经融合模块利用目标增强的文本条件强化条件信息进而形成生成中间特征；输入预训练的CLIP图像编码器，结合利用目标增强的文本条件通过一层全连接层预测的一组提示向量附加在生成中间特征中，得到结合视觉模态信息的生成中间特征；最后，结合视觉模态信息的生成中间特征经过6个由上采样操作连接的融合模块，继续利用目标增强的文本条件引导生成的同时使特征空间尺寸向图像尺寸逼近，得到最终图像生成结果输出；利用目标增强的文本条件控制和引导生成网络得到图像生成结果，生成结果与真实图像作为待判别图像输入判别网络进行判别；其中判别网络的结构为：待判决图像输入预训练的CLIP图像编码器得到一系列中间视觉特征，其中为选择视觉特征层数，为预训练的CLIP图像编码器提取判决图像得到的第层中间视觉特征；从第一层视觉特征开始，将所有层中间视觉特征图进行整合，方式为：将输入两个搭配ReLU激活的卷积层后与下一层视觉特征层相加，结果继续输入两个搭配ReLU激活的卷积层，如此操作直至与最后一层视觉特征完成整合，得到整合的多尺度图像特征；将全局文本特征、目标文本特征按通道拼接后在空间上进行复制使其与整合的多尺度图像特征具有一直空间尺寸，随后将其与整合的多尺度图像特征进行拼接，输入单路判别器预测得到判别结果输出；目标跨模态表达辅助的遥感场景文本-图像生成网络整体采用对抗损失进行训练；生成网络与判别网络在每一轮次训练中采取交替优化的策略进行参数更新，对抗生成训练阶段判别网络和生成网络的损失函数分别为：（7）（8）其中，是从高斯分布采样的随机噪声，为全局文本特征，为目标文本特征，为真实图像；为生成网络，为判别网络，为生成图像与文本条件间的CLIP相似度；与为控制梯度惩罚的超参数，系数用于调整文本图像相似度损失的权重；、、分别表示生成数据分布、真实数据分布、错误匹配数据分布；、分别为梯度在与方向上的分量，为数学期望。

全文数据：

权利要求：

百度查询：大连理工大学目标跨模态表达辅助的遥感场景文本-图像生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种玻璃加工生产线废玻璃回收装置

下一篇：一种防晃茶杯托盘

相关技术

一种玻璃加工生产线废玻璃回收装置

一种防晃茶杯托盘

一种便于收放的无人机脚架

一种防松螺丝

一种机制砂防堵仓下料装置

耐冲击不锈钢提纯罐

一种金属饰面保温装饰一体板折边翻转机构

一种用于焦炭反应性加热炉的恒温测定组件

一种具有矫正功能的手机维修用辅助定位装置

一种便于控制的超音速喷涂装置

一种高温电磁阀

一种农业种植幼苗培育装置

文本相关技术

文本翻译方法、文本翻译装置、电子设备及存储介质_网易(杭州)网络有限公司_202410627520.9

文本检测及文本检测模型训练方法、装置和设备_北京百度网讯科技有限公司_202410841220.0

文本表示方法、装置、电子设备与存储介质_中国科学技术大学_202111452650.6

匹配文本去重方法、装置、电子设备_北京三快在线科技有限公司_202011063538.9

文本对抗样本生成方法、装置、设备、存储介质及程序产品_清华大学_202410714583.8

一种获取目标文本的数据处理系统_西安惠普生物科技有限公司_202111183244.4

文本处理方法及装置、模型训练方法及装置_智慧芽信息科技(苏州)有限公司_202110915501.2

一种基于文本分析的康养服务需求挖掘方法及系统_贵阳康养职业大学_202411170974.4

一种基于版面的文本分块方法、设备及存储介质_重庆赛力斯新能源汽车设计院有限公司_202410966698.6

模型的训练方法、视频文本检索方法及装置、设备、介质_西安电子科技大学_202310442923.1

表达相关技术

UBE3A基因和表达盒及其应用_北卡罗来纳大学查佩尔希尔分校_202080050918.0

治疗性蛋白质的瞬时表达_百时美施贵宝公司_202380025278.1

一种EPSPS酶突变体、核酸分子、表达盒、表达载体、重组菌或重组细胞及其应用_四川天豫兴禾生物科技有限公司_202411257192.4

基于中文表达式的计算方法、装置、设备及存储介质_北京宏景世纪软件股份有限公司_202011352143.0

用于表达GLUT1的腺相关病毒载体及其应用_太空飞船七有限责任公司_202380026584.7

通过使用转录因子来增加蛋白质表达的手段和方法_贝林格尔·英格海姆RCV两合公司_201980056449.0

具有共表达的shRNA和逻辑门系统的免疫细胞_阿森纳生物科学公司_202280074497.4

一种网络直播场景下的人脸融合方法和内容表达设备_南京硅基智能科技有限公司_202310442519.4

一种黑莓RubHLH基因及其表达蛋白和应用_江苏省中国科学院植物研究所_202411229141.0

一种抑制KRAS基因表达的小干扰核酸及其制药用途_佑嘉(杭州)生物医药科技有限公司_202410874296.3

辅助相关技术

辅助支撑模组_台宝艾传动科技(昆山)有限公司_202420766887.4

配体辅助解离_尼科亚生命科学公司_202380016328.X

加垫辅助装置_上海飞机制造有限公司_202420015648.5

下车辅助装置_丰田自动车株式会社_202210735321.0

辅助支撑机构_台宝艾传动科技(昆山)有限公司_202420758098.6

行驶辅助装置_日立安斯泰莫株式会社_202380025246.1

建筑电线辅助布设装置_福建中诚诺建设工程管理有限公司_202420033202.5

驾驶员辅助系统_ZF主动安全和电子美国有限公司_201980040251.3

拉丝机放线辅助装置_山东未来智能技术有限公司_202420490451.7

一种术后辅助行走装置_杭州市临安区第一人民医院(杭州市临安区第一人民医院医共体)_202323669886.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

目标跨模态表达辅助的遥感场景文本-图像生成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务