首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于语义保留与重构的图像文本控制描述生成方法_贵州大学;贵州慧控农耀科技有限公司_202410651350.8 

申请/专利权人:贵州大学;贵州慧控农耀科技有限公司

申请日:2024-05-24

公开(公告)日:2024-06-21

公开(公告)号:CN118230347A

主分类号:G06V30/418

分类号:G06V30/418;G06V30/19;G06V10/82

优先权:

专利状态码:在审-公开

法律状态:2024.06.21#公开

摘要:本发明公开了一种基于语义保留与重构的图像文本控制描述生成方法,属于计算机视觉和自然语言处理技术领域,通过相关步骤的有机组合,使得生成的描述不仅具备与图像相关的语义,还能够在一定程度上进行重构,首先,通过使用专家标注的文本,模型利用图像特征进行修复和重建,快速获取图文特征融合和文本生成能力。接着,将文本描述输入模型并替换原有的特征提取,使得模型能够根据特征填充原始文本,以促进对语句模板特征的学习,生成更为真实的描述。最后,通过冻结文本模型,利用ViT提取图像特征,并将其映射到原始文本特征空间中,进而融合图像和文本提取的特征,确保它们在特征空间上的精确对齐,从而使模型能够成功完成最终的描述任务。

主权项:1.一种基于语义保留与重构的图像文本控制描述生成方法,其特征在于,包括以下步骤:步骤1、构建Encoder-Decoder网络模型,完成多模态融合;Encoder-Decoder网络模型包括Encoder模型和Decoder模型;Encoder模型是结合图像和文本模板,生成植物病虫害语句描述;Decoder模型包括WordEmbedding、双重注意力模块和自适应注意力块;其中,双层注意力模块包括开关注意力机制和选择注意力机制,具体为:首先使用门控单元计算一个开关变量,开关变量表示当前时间步使用的注意力机制;然后,根据开关变量,选择性地使用开关注意力机制和选择注意力机制;其中,开关注意力机制是通过控制了是否使用开关状态分数和当前时间步的隐藏状态计算得到注意力权重;选择注意力机制是通过控制了是否使用外部信息计算得到注意力权重;最后,根据的取值,利用不同的注意力权重对不同的信息源进行加权融合,得到最终的上下文表示,具体表达式如下: ; ;其中,,,分别表示Encoder最终的融合特征,视觉和文本特征,表示sigmoid函数,将实数映射到0到1之间的范围内,、、、和表示不同的线性变换的操作权重,表示随机丢弃输入向量的一部分元素,表示双曲正切函数,将实数映射到-1到1之间的范围内,表示开关状态分数,表示注意力得分,通过融合后的表示和前一个隐藏状态之间的点积计算得到,并且通过融合表示的维度平方根进行归一化,表示通过将线性组合开关注意力得分和隐藏状态进行双曲正切变换(tanh)后应用权重矩阵得到的中间状态,表示一个外部状态,用于扩展上下文或不同的门控机制,表示通过对连接的和应用softmax函数计算得到的双层注意力权重;步骤2、在多模态融合的基础上引入SPR机制对Encoder-Decoder网络模型进行训练,包括三个阶段,分别为文本引导阶段、图像特征学习阶段和图文特征对齐阶段;其中,文本引导阶段的具体过程如下:首先,利用专家标注的文本信息和图像特征,通过替换部分文本特征,获得基本的图文特征融合和文本生成能力,然后对预训练ViT和GPT2进行微调,适应特定的数据集和任务要求获得目标,目标为微调预训练模型;图像特征学习阶段的具体过程如下:Encoder-Decoder网络模型接受文本描述作为输入,并替换原有的特征提取部分;通过将文本中的特征模板部分与图像特征进行融合,使模型学习到语句模板的特征,通过输入专家标注的文本,利用图像特征进行语句修复和重建,获得基本的图文特征融合和文本生成能力,具体表达式如下: ; ;其中,表示使用交叉熵损失函数计算的重构损失,和表示分别表示真实标签向量和预测标签向量中的第i个元素,表示语义保留与重构目标;图文特征对齐阶段的具体过程如下:利用视觉特征提取器对图像特征进行提取,然后将图像特征映射到原始文本特征提取中,并融合两个模块提取的特征,完成图文特征的精确对齐;使用交叉熵损失函数计算最终生成的损失,最小化损失作为验证生成结果的目标函数,引入CMD损失最大化图像特征提取的差异,损失函数具体表达式如下: ; ;其中,是样本数量,表示欧氏距离,是当前阶段图像输入ViT预训练模型经过线性层的图像特征,是在文本引导阶段图像输入ViT预训练模型经过线性层的图像特征;拼接CMD损失和交叉熵损失的值,得到目标函数,具体表达式如下: ;其中,α和β表示超参数,α=1.2,β=0.7;获取最终的目标,具体表达式如下: ;步骤3、通过文本描述特征序列搜索对步骤3训练好Encoder-Decoder网络模型的生成进行控制。

全文数据:

权利要求:

百度查询: 贵州大学;贵州慧控农耀科技有限公司 一种基于语义保留与重构的图像文本控制描述生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。