【发明公布】一种基于语义保留与重构的图像文本控制描述生成方法_贵州大学;贵州慧控农耀科技有限公司_202410651350.8

申请/专利权人：贵州大学;贵州慧控农耀科技有限公司

申请日：2024-05-24

公开（公告）日：2024-06-21

公开（公告）号：CN118230347A

主分类号：G06V30/418

分类号：G06V30/418;G06V30/19;G06V10/82

优先权：

专利状态码：在审-公开

法律状态：2024.06.21#公开

摘要：本发明公开了一种基于语义保留与重构的图像文本控制描述生成方法，属于计算机视觉和自然语言处理技术领域，通过相关步骤的有机组合，使得生成的描述不仅具备与图像相关的语义，还能够在一定程度上进行重构，首先，通过使用专家标注的文本，模型利用图像特征进行修复和重建，快速获取图文特征融合和文本生成能力。接着，将文本描述输入模型并替换原有的特征提取，使得模型能够根据特征填充原始文本，以促进对语句模板特征的学习，生成更为真实的描述。最后，通过冻结文本模型，利用ViT提取图像特征，并将其映射到原始文本特征空间中，进而融合图像和文本提取的特征，确保它们在特征空间上的精确对齐，从而使模型能够成功完成最终的描述任务。

主权项：1.一种基于语义保留与重构的图像文本控制描述生成方法，其特征在于，包括以下步骤：步骤1、构建Encoder-Decoder网络模型，完成多模态融合；Encoder-Decoder网络模型包括Encoder模型和Decoder模型；Encoder模型是结合图像和文本模板，生成植物病虫害语句描述；Decoder模型包括WordEmbedding、双重注意力模块和自适应注意力块；其中，双层注意力模块包括开关注意力机制和选择注意力机制，具体为：首先使用门控单元计算一个开关变量，开关变量表示当前时间步使用的注意力机制；然后，根据开关变量，选择性地使用开关注意力机制和选择注意力机制；其中，开关注意力机制是通过控制了是否使用开关状态分数和当前时间步的隐藏状态计算得到注意力权重；选择注意力机制是通过控制了是否使用外部信息计算得到注意力权重；最后，根据的取值，利用不同的注意力权重对不同的信息源进行加权融合，得到最终的上下文表示，具体表达式如下：；；其中，，，分别表示Encoder最终的融合特征，视觉和文本特征，表示sigmoid函数，将实数映射到0到1之间的范围内，、、、和表示不同的线性变换的操作权重，表示随机丢弃输入向量的一部分元素，表示双曲正切函数，将实数映射到-1到1之间的范围内，表示开关状态分数，表示注意力得分，通过融合后的表示和前一个隐藏状态之间的点积计算得到，并且通过融合表示的维度平方根进行归一化，表示通过将线性组合开关注意力得分和隐藏状态进行双曲正切变换（tanh）后应用权重矩阵得到的中间状态，表示一个外部状态，用于扩展上下文或不同的门控机制，表示通过对连接的和应用softmax函数计算得到的双层注意力权重；步骤2、在多模态融合的基础上引入SPR机制对Encoder-Decoder网络模型进行训练，包括三个阶段，分别为文本引导阶段、图像特征学习阶段和图文特征对齐阶段；其中，文本引导阶段的具体过程如下：首先，利用专家标注的文本信息和图像特征，通过替换部分文本特征，获得基本的图文特征融合和文本生成能力，然后对预训练ViT和GPT2进行微调，适应特定的数据集和任务要求获得目标，目标为微调预训练模型；图像特征学习阶段的具体过程如下：Encoder-Decoder网络模型接受文本描述作为输入，并替换原有的特征提取部分；通过将文本中的特征模板部分与图像特征进行融合，使模型学习到语句模板的特征，通过输入专家标注的文本，利用图像特征进行语句修复和重建，获得基本的图文特征融合和文本生成能力，具体表达式如下：；；其中，表示使用交叉熵损失函数计算的重构损失，和表示分别表示真实标签向量和预测标签向量中的第i个元素，表示语义保留与重构目标；图文特征对齐阶段的具体过程如下：利用视觉特征提取器对图像特征进行提取，然后将图像特征映射到原始文本特征提取中，并融合两个模块提取的特征，完成图文特征的精确对齐；使用交叉熵损失函数计算最终生成的损失，最小化损失作为验证生成结果的目标函数，引入CMD损失最大化图像特征提取的差异，损失函数具体表达式如下：；；其中，是样本数量，表示欧氏距离，是当前阶段图像输入ViT预训练模型经过线性层的图像特征，是在文本引导阶段图像输入ViT预训练模型经过线性层的图像特征；拼接CMD损失和交叉熵损失的值，得到目标函数，具体表达式如下：；其中，α和β表示超参数，α=1.2，β=0.7；获取最终的目标，具体表达式如下：；步骤3、通过文本描述特征序列搜索对步骤3训练好Encoder-Decoder网络模型的生成进行控制。

全文数据：

权利要求：

百度查询：贵州大学;贵州慧控农耀科技有限公司一种基于语义保留与重构的图像文本控制描述生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：基于零代词补齐的汉越数据增强方法_昆明理工大学_202210374347.7

下一篇：一种齿轮加工成型设备_兴化金马鹿机电科技有限公司_202410356685.7

相关技术

基于零代词补齐的汉越数据增强方法_昆明理工大学_202210374347.7

一种齿轮加工成型设备_兴化金马鹿机电科技有限公司_202410356685.7

一种配电网低压无功补偿电容状态检测方法及装置_广东电网有限责任公司_202210780379.7

一种羽毛片自动翻正装置_汪锐_202111663818.8

一种防治猪繁殖与呼吸道综合征的复方中药可溶性粉的制备方法和应用_广东海大集团股份有限公司_202211577992.5

促进多面板用户设备的不连续接收_诺基亚技术有限公司_201880095028.4

老旧小区改造电梯加装用施工吊篮_四川华奥电梯有限公司_202210866326.7

一种汽车风窗玻璃试验中AB区的投射设备_中汽研汽车检验中心(武汉)有限公司_202410456408.3

一种镁合金阳极表面原位生成ZIF-8涂层的改性方法_桂林理工大学_202210904451.2

轮胎磨损监测方法及系统_摩登汽车有限公司_202210397941.8

一种馍片生产的输送带自清洁装置_晋城市丰昇源面业股份有限公司_202410231905.3

一种Invar合金焊丝及其制备、焊接方法_西安钢研功能材料股份有限公司_202311708375.9

文本相关技术

一种文本选中方法_荣耀终端有限公司_202410188658.3

多行文本识别方法、装置、设备及介质_深圳市星桐科技有限公司_202210377461.5

自由文本标签化的方法及装置_北京赛迈特锐医疗科技有限公司_202110438360.X

一种基于文本驱动的数据增强方法_北京交通大学_202410218732.1

文本匹配方法及装置、存储介质、终端_华院计算技术(上海)股份有限公司_202210170758.4

文本显示方法、电子设备及存储介质_华为技术有限公司_202211632185.9

文本处理方法、装置、设备及存储介质_北京百度网讯科技有限公司_202311587234.6

文本配图生成方法及相关产品_书行科技(北京)有限公司_202311734988.X

一种文本数据搜索方法及系统_北京航天情报与信息研究所_202410274634.X

文本生成方法、装置、设备及存储介质_杭州网易云音乐科技有限公司_202410303012.5

图像相关技术

图像读取装置和图像形成系统_佳能株式会社_202311736976.0

图像处理装置和图像处理方法_爱思开海力士有限公司_202311055069.X

图像处理装置和图像处理方法_爱思开海力士有限公司_202310957003.3

图像处理装置、图像处理方法及图像处理系统_爱思开海力士有限公司_202311159508.1

图像转换装置及包含图像转换装置的图像系统_英特尔公司_202322563332.8

图像处理设备、图像处理方法和存储介质_佳能株式会社_202311751946.7

图像处理装置、摄像装置和图像处理方法_日本株式会社皆爱公司_202280075041.X

图像形成装置及图像形成装置的控制方法_东芝泰格有限公司_201910989416.3

图像处理装置、图像处理方法和存储介质_佳能株式会社_202210683616.8

显影装置、图像形成单元以及图像形成装置_东芝泰格有限公司_202010093524.5

控制相关技术

数值控制装置和数值控制装置的控制方法_兄弟工业株式会社_202010625949.6

数值控制装置和控制方法_兄弟工业株式会社_202010980866.9

功率控制系统及其控制方法_比亚迪股份有限公司_202311872448.8

数值控制装置和控制方法_兄弟工业株式会社_202010530639.6

控制系统以及控制方法_株式会社小松制作所_202180024952.5

设备控制系统及控制方法_珠海格力电器股份有限公司_201910312820.7

控制系统和控制方法_佳能株式会社_202010438959.9

驾驶控制方法及驾驶控制装置_日产自动车株式会社_202180104185.9

车辆控制方法及车辆控制装置_日产自动车株式会社_202180104075.2

射精控制_性能力医疗有限公司_201880090395.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】一种基于语义保留与重构的图像文本控制描述生成方法_贵州大学;贵州慧控农耀科技有限公司_202410651350.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务