买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:电子科技大学
摘要:本发明公开了一种弱监督的跨模态语义连贯性恢复方法,首先针对文本与图像各自训练了一个语义连贯性恢复模型,得到文本位置矩阵At、图像位置矩阵Bt,然后借助CLIP预训练模型的跨模态语义对齐能力,将另一模态的相对位置信息引入至目标模态中。为了最大化地利用跨模态相对位置信息,本发明在此基础上进一步设计了一种迭代式的训练与推理策略:该方法在训练过程中交替地冻结文本与图像模型,通过跨模态语义对齐,将冻结模型中的跨模态相对位置信息引入至未冻结的模型中,这一策略同样也被应用于模型的推理阶段中,最后使用拓扑排序得到文本、图像排序。在SIND与TACoS‑Ordering数据集上开展的相关实验证明本发明的有效性,即可以在无需额外位置信息标注的前提下,利用另一个模态经过预测得出的相对位置信息进行跨模态语义连贯性恢复。
主权项:1.一种弱监督的跨模态语义连贯性恢复方法,其特征在于,包括以下步骤:1、获取上下文文本特征以及上下文图像特征对于第t组文本图像集合,将文本集合St输入文本编码器中进行编码,文本编码器包括BERT预训练模型以及G层注意力模块;首先,采用BERT预训练模型分别对文本集合St中的Nt条无序的文本进行特征提取,得到文本特征其中,文本特征为dk维的行向量,然后,将文本特征按列拼接得到文本特征图送入第一层文本注意力块中;在第一层文本注意力块中,首先得到多头注意力:MHQ,K,V=[H1,H2,…,Hh]WE其中,[·,·]表示多个注意力头的拼接,为训练参数,每个注意力头Hi为: 其中,Attention获取注意力,为第i个头的训练参数,da=dkh,Q,K,V分别是第一层文本注意力块查询、键和值输入,均为文本特征图即然后,多头注意力MHQ,K,V经过一个前馈全连接层得到文本特征图并作为第二层文本注意力块的Q,K,V输入;第二层文本注意力块与第一层文本注意力块结构相同,经过相同的处理后得到文本特征图再作为第三层文本注意力块的Q,K,V输入,这样依次处理,在最后第G层文本注意力块输出文本特征图其中,第i行对应第i条文本的上下文文本特征,即为与此同时,对于第k组文本图像集合,将文本集合St对应的图像集合Xt输入到图像编码器中进行编码,图像编码器包括ViT预训练模型以及G层注意力模块,其中,G层注意力模块与文本编码器中的G层注意力模块具有相同的结构;首先,采用ViT预训练模型分别对图像集合Xt中的Mt张无序图像进行特征提取,得到图像特征其中,图像特征为dk维的行向量,然后,将图像特征按列拼接得到图像特征图送入G层注意力模块中,经过图像编码器中的G层注意力模块的相同处理后,得到图像特征图第j行对应第j张图像的上下文图像特征,即为2、相对位置判别首先,将上下文文本特征送入具有可训练参数δs的文本相对位置判别器hδs建模任意两个上下文文本特征的相对顺序: 其中,为相对位置顺序预测结果,ρ为特征聚合操作;然后,应用logistic函数得到第i个文本在第k个文本前的概率at_i,k: 这样,得到文本位置矩阵At: 同样,对于上下文图像特征为采用具有可训练参数δX的图像相对位置判别器hδX建模任意两个上下文图像特征的相对顺序,应用logistic函数得到图像位置矩阵Bt: 其中,bt_j,l为第j个图像在第l个图像前的概率;3、跨模态语义对齐使用CLIP预训练模型对文本集合St、图像集合Xt进行相似度计算,得到跨模态相似度矩阵其中,第i行第j列元素为ct_ij,i=1,2,…,Nt,j=1,2,…Mt表示第i个文本与第j张图像的相似度;4、迭代式恢复采用迭代式的矩阵更新算法来更新文本位置矩阵At、图像位置矩阵Bt:初始化一个与文本位置矩阵At大小相同的0矩阵即: 然后判断文本位置矩阵At中概率at_i,k,i=1,2,…,Nt,k=1,2,…,Nt是否大于设定的掩码阈值θ,如果大于,则矩阵中第i行第k列元素为概率at_i,k,否则,设置为0;将图像位置矩阵Bt复制为矩阵B′t,即: 然后判断矩阵元素是否等于0,如果等于,则不对图像位置矩阵Bt′进行操作,如果不等于,则在跨模态相似度矩阵Ct中找到第i行最大值元素所在列,其序号即为idxt_1,找到第k行最大值元素所在列,其序号即为idxt_2,然后,将图像位置矩阵B′t中的元素进行更新: 同样地,初始化一个与图像位置矩阵Bt大小相同的0矩阵即: 然后判断图像位置矩阵Bt中概率bt_j,l,j=1,2,…,Mt,l=1,2,…,Mt是否大于设定的掩码阈值θ,如果大于,则矩阵中第j行第l列元素为概率bt_j,l,否则,设置为0;将文本位置矩阵At复制为文本位置矩阵A′t,即: 然后判断矩阵元素是否等于0,如果等于,则不对文本位置矩阵A′t进行操作,如果不等于,则在跨模态相似度矩阵Ct中找到第j列最大值元素所在行,其序号即为idst_1,找到第l列最大值元素所在行,其序号即为idst_2,然后,将文本位置矩阵A′t中的元素进行更新: 5、训练采用T组文本集合St、图像集合Xt按照步骤1~4进行处理,然后计算文本语义连贯性恢复的损失Lsen: 其中,zt_i,k为第i个文本与第k个文本的正确顺序标签,如果第i个文本在第j个文本之前,则为0,反之为1;计算图像语义连贯性恢复的损失Limg: 其中,yt_j,l为第j张图像与第l张图像的正确顺序标签,如果第j张图像在第第l张图像之前,则为0,反之为1;基于步骤1~4进行构建,得到弱监督的跨模态语义连贯性恢复网络,不断输入T组文本集合St、图像集合Xt,依据损失Lsen、Limg对弱监督的跨模态语义连贯性恢复网络进行训练,直至收敛;6、推理将文本集合与对应的图像集合输入到弱监督的跨模态语义连贯性恢复网络,按照步骤1~4获得文本位置矩阵A′t、图像位置矩阵B′t,然后分别使用拓扑排序算法,得到文本顺序以及图像顺序。
全文数据:
权利要求:
百度查询: 电子科技大学 一种弱监督的跨模态语义连贯性恢复方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。