一种基于文本调制扩散模型的强泛化全色锐化方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西北工业大学

摘要：本发明公开了一种基于文本调制扩散模型的强泛化全色锐化方法，利用文本提示卫星数据相关的信息，调制扩散模型的参数，并使用3D卷积神经网络构建模型。该模型由正向扩散过程和反向去噪过程组成，其中正向扩散过程通过马尔科夫链方式逐步给目标图像添加高斯噪声，反向去噪过程从标准高斯分布的噪声数据逐步生成目标高分辨率多光谱图像。本发明设计了一个文本调制的3D卷积神经网络，文本提示通过CLIP的文本编码器生成文本编码，与3D卷积神经网络的卷积核在通道维度相乘，为不同的卫星数据生成适配的网络参数，处理多个卫星数据集。本发明能够利用多个遥感数据集，从而在增强空间细节信息的同时减少光谱失真，并极大增强了模型在未知数据集的泛化能力。

主权项：1.一种基于文本调制扩散模型的强泛化全色锐化方法，其特征在于，包括如下步骤：步骤1：数据集准备；对成对、配准的遥感多光谱MS图像和全色图像PAN按照从左到右、从上到下的顺序截取图像块，并将这些图像块分为训练集、验证集和测试集；先对训练集、验证集和测试集进行归一化处理；再对训练集、验证集和测试集中的图像块按照Wald协议进行处理，然后将处理过的图像块作为模型的输入；原始MS图像块作为参考图像；步骤2：正向加噪过程；设置加噪的总步长为T，对任意时间步t～{1，...，T}，通过公式1和2计算参考图像即高分辨率多光谱图像X0加噪到t时刻的数据分布：其中αi是预定义的固定参数，取值范围为0，1；∈t为服从标准高斯分布的噪声信息；X0为参考图像；Xt表示加噪至t时刻的参考图像；I表示一个值全为1的矩阵；表示高斯分布；qXt|X0表示参考图像X0加噪至t时刻的数据分布；步骤3：文本调制3D卷积神经网络构建；所述文本调制3D卷积神经网络接收的输入信息包括时间步t、加噪图像Rt、文本提示L、全色图像P与多光谱图像M，网络的预测目标为没有噪声干扰的高分辨率多光谱图像X0，即fθXt，L，t，P，M→X0；所述文本调制3D卷积神经网络包括两个分支网络，分别为条件编码器分支与U型网络分支，条件编码器分支提取MS图像块和PAN图像块的信息，U型网络分支提取加噪图像Xt的信息并结合条件编码器输出的多尺度特征，获得目标高分辨率多光谱图像；所述条件编码器分支与U型网络分支均采用调制3D残差模块作为基础模块，该模块接收时间步t的编码Et、文本提示L的编码El和上一层的特征Fj-1，输出特征Fj；步骤3-1：构建时间步编码模块；所述时间步编码模块络依赖时间步t，输入的时间步t～{1，...，T}使用正余弦编码算法转换为一维向量，随后通过Linear线性变化层和LReLU激活函数顺序级联的结构；所述级联结构共级联三组Linear线性变化层与LReLU，输出处理后的一维时间编码Et；步骤3-2：构建文本编码模块；所述文本编码模块由预训练CLIP文本编码器、Linear线性变化层和LReLU激活函数级联的结构组成，模块输入文本提示L，输出一维文本编码El；所述文本提示L采用统一的模板，使用卫星的名称作为卫星物理信息的标识，具体模板为“ImagesofClassk”，其中Classk表示待处理的卫星名称，如当输入全色图像P与多光谱图像M来自QuickBird时，文本提示L为“ImagesofQuickBird”；所述预训练CLIP文本编码器采用Openai开源的CLIP-vit-large-patch14模型的文本编码器部分；文本提示L输入CLIP文本编码器后得到共77个维度768的文本编码，其中的CLS编码后输入Linear线性变化层和LReLU激活函数级联的结构；所述级联结构共包含三组，最终输出处理后的一维文本编码El；所述文本编码El将输入每一个调制3D残差模块以调制其输出；步骤3-3：构建调制3D残差模块；所述调制3D残差模块由3D卷积层、Linear线性变化层、LReLU激活函数和跳连接组成；输入信息包括时间编码Et，文本编码El与输入特征Fj-1，输出处理后的特征Fj；所述3D卷积层使用窗口尺寸为1×3×3，填充为1，步长为1；所述时间编码Et和文本编码El通过Linear线性变化层改变向量长度，保持与输入特征Fj-1的通道数量一致，时间编码Et与输入特征Fj-1相加后，通过LReLU、3D卷积层、LReLU、3D卷积层顺序级联的结构；文本编码El与第二个3D卷积层的权重在通道维度相乘，从而调制模块的运算结果；所述跳连接指调制3D残差模块的输出结果与输入特征Fj-1相加后输出最终结果Fj；步骤3-4：构建条件编码网络分支；所述条件编码网络分支由调制3D残差模块、LReLU激活函数和下采样层级联3组的结构组成；所述条件编码网络分支接收全色图像P与多光谱图像M作为条件信息；具体地，网络输入为PD-Mr↑，其中PD表示全色图像P在通道上复制到与多光谱图像M通道数量一致，Mr↑表示多光谱图像进行r倍上采样至空间分辨率与全色图像P一致，求差后得到条件输入；条件信息PD-Mr↑在输入编码器前需要reshape为B，1，C，H，W格式以便调制3D残差模块处理；所述下采样层使用窗口尺寸为1×3×3，填充为1，步长为2的3D卷积层；所述条件编码网络输出3组多尺度特征，特征形状分别为B，32，C，H2，W2、B，64，C，H4，W4、B，128，C，H8，W8；步骤3-5：构建U型网络分支；所述U型网络分支由调制3D残差模块、LReLU激活函数和下采样层或上采样层级联的结构组成；所述U型网络分支输入为加噪至t时刻的参考图像Xt和条件编码分支提取的3组多尺度特征，重建高分辨率多光谱图像X0；图像Xt在输入前reshape为B，1，C，H，W格式用于调制3D残差模块处理；图像Xt通过三组调制3D残差模块、LReLU激活函数和下采样层级联的编码器结构，再通过三组调制3D残差模块、LReLU激活函数和上采样层级联的解码器结构，解码器使用跳连接Concat相同分辨率的编码器特征与条件编码器特征，最后通过两个调制3D残差模块输出重建结果；步骤4：训练过程；所述文本调制扩散模型在多个遥感卫星数据集上联合训练，并采用步骤3-2描述的卫星特定文本提示；所述训练过程使用K个卫星数据集，记为D＝D1∪...∪DK，其中Dk包含的训练数据记为Nk是第k个卫星数据集的全色-多光谱图像对的数量；所述文本调制扩散模型在联合数据集D中，顺序采样不同卫星数据集的batch联合训练，所使用的损失函数如下：步骤5：反向去噪流程；所述文本调制扩散模型训练结束后，基于马尔科夫链过程，从标准正态分布中采样得到两个样本XT和z，使用下述公式4进行T步迭代，当t＝0时迭代终止，最后从高斯噪声XT去噪得到全色图像P和多光谱图像M的融合结果：其中

全文数据：

权利要求：

百度查询：西北工业大学一种基于文本调制扩散模型的强泛化全色锐化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于企业资源的职业教育的管理方法以及设备

下一篇：一种高速机械磨削主轴加工装置

相关技术

一种基于企业资源的职业教育的管理方法以及设备

一种高速机械磨削主轴加工装置

一种基于Wollaston棱镜的同步移相干涉装置及方法

一株马立克病病毒双基因编辑缺失疫苗株SD01ΔmeqΔM11及构建和应用

一种烟叶分拣定级用的翻转分料装置及方法

一种1,2,3-三氮唑-4-甲酸乙酯的合成方法

一种不等厚火山口玻璃后盖周抛方法

一种重型机械龙门自动焊接装置

一种Z型气动吸附的执行器结构

一种超声波诊断检查防护装置

一种各向异性复合纤维水凝胶及其制备方法

一种批量热浸镀锌铝镁浸镀前两步式活化助镀处理方法

泛化相关技术

基于堆叠因子泛化多品类识别的混称AI防损方法_杭州威亿威科技有限公司_202410600829.9

一种用于泛实体瘤早期筛查的甲基化标志物及其应用_深圳市睿法生物科技有限公司_202311394684.3

测量经训练的机器学习模型相对于给定测量数据的泛化能力_罗伯特·博世有限公司_202410259753.8

一种聚泛光LED灯_安徽巢炀建设工程有限公司_202420339191.3

一种空天地一体化泛在物联网络高效数据采集方法及装置_中国人民解放军国防科技大学_202410889603.5

一种空化射流清洗空化器_浙江理工大学_201810369042.0

湿化量可调医用湿化瓶_广西赛特赛尔科技有限公司_202323074908.0

官能化多糖_雷克特本克斯尔菲尼施公司_202280082550.5

客制化广告方法_冠捷投资有限公司_202310356083.7

可视化散热贴_惠州昌钲新材料有限公司_202323068217.X

强相关技术

一种抗震能力强的平板电脑_深圳合悦丰科技有限公司_202323549490.4

滑块二次抽芯强脱模机构_汉达精密电子(昆山)有限公司_202310225219.0

一种圆形风阀的强密封结构_黄国强_202323648593.6

一种金属冲压韧性强的模具_青岛宝仕特模具材料有限公司_202420137051.8

一种强支撑的板式除尘滤芯_张家港市福泰净化设备有限公司_202420007691.7

一种抗压性强的塑料格栅_枣庄山亭鑫源新型建材有限公司_202323380804.2

强自锐性复合片及钻头_成都百施特金刚石钻头有限公司_202323649270.9

一种连接紧固性强的消防接扣_福建省四海消防科技有限公司_202420352511.9

一种新型密封性强的管道截止阀结构_济南市众达环保科技有限公司_202323422330.3

一种超强铝合金强塑性与耐蚀性能协同提升方法_中南大学_202410906395.5

模型相关技术

模型评估方法及装置_中国电信股份有限公司_202410896650.2

生物教学用大脑模型_章嘉懿_202323663194.7

数据生成模型获取方法_珠海金山数字网络科技有限公司_202410682552.9

一种风险模型中多标签模型的处理方法_河南中原消费金融股份有限公司_202411079805.X

大语言模型和小语言模型协同的民生诉求事件分拨方法_中电万维信息技术有限责任公司_202410774675.5

一种珠宝自动检测模型的建模方法、模型及检测方法_河北地质大学_202410804913.2

一种基于大模型的债务人画像分析处理方法与模型_杭州度言软件有限公司_202410871597.0

一种模型训练方法、海底地形预测方法及模型训练装置_广州海洋地质调查局_202410589025.3

岩土信息模型的建立方法_华中科技大学_202410676259.1

一种生态模型展台_沂南县永成农机化服务专业合作社_202323656505.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于文本调制扩散模型的强泛化全色锐化方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务