一种弱监督的跨模态语义连贯性恢复方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：电子科技大学

摘要：本发明公开了一种弱监督的跨模态语义连贯性恢复方法，首先针对文本与图像各自训练了一个语义连贯性恢复模型，得到文本位置矩阵At、图像位置矩阵Bt，然后借助CLIP预训练模型的跨模态语义对齐能力，将另一模态的相对位置信息引入至目标模态中。为了最大化地利用跨模态相对位置信息，本发明在此基础上进一步设计了一种迭代式的训练与推理策略：该方法在训练过程中交替地冻结文本与图像模型，通过跨模态语义对齐，将冻结模型中的跨模态相对位置信息引入至未冻结的模型中，这一策略同样也被应用于模型的推理阶段中，最后使用拓扑排序得到文本、图像排序。在SIND与TACoS‑Ordering数据集上开展的相关实验证明本发明的有效性，即可以在无需额外位置信息标注的前提下，利用另一个模态经过预测得出的相对位置信息进行跨模态语义连贯性恢复。

主权项：1.一种弱监督的跨模态语义连贯性恢复方法，其特征在于，包括以下步骤：1、获取上下文文本特征以及上下文图像特征对于第t组文本图像集合，将文本集合St输入文本编码器中进行编码，文本编码器包括BERT预训练模型以及G层注意力模块；首先，采用BERT预训练模型分别对文本集合St中的Nt条无序的文本进行特征提取，得到文本特征其中，文本特征为dk维的行向量，然后，将文本特征按列拼接得到文本特征图送入第一层文本注意力块中；在第一层文本注意力块中，首先得到多头注意力：MHQ,K,V＝[H1,H2,…,Hh]WE其中，[·,·]表示多个注意力头的拼接，为训练参数，每个注意力头Hi为：其中，Attention获取注意力，为第i个头的训练参数，da＝dkh，Q,K,V分别是第一层文本注意力块查询、键和值输入，均为文本特征图即然后，多头注意力MHQ,K,V经过一个前馈全连接层得到文本特征图并作为第二层文本注意力块的Q,K,V输入；第二层文本注意力块与第一层文本注意力块结构相同，经过相同的处理后得到文本特征图再作为第三层文本注意力块的Q,K,V输入，这样依次处理，在最后第G层文本注意力块输出文本特征图其中，第i行对应第i条文本的上下文文本特征，即为与此同时，对于第k组文本图像集合，将文本集合St对应的图像集合Xt输入到图像编码器中进行编码，图像编码器包括ViT预训练模型以及G层注意力模块，其中，G层注意力模块与文本编码器中的G层注意力模块具有相同的结构；首先，采用ViT预训练模型分别对图像集合Xt中的Mt张无序图像进行特征提取，得到图像特征其中，图像特征为dk维的行向量，然后，将图像特征按列拼接得到图像特征图送入G层注意力模块中，经过图像编码器中的G层注意力模块的相同处理后，得到图像特征图第j行对应第j张图像的上下文图像特征，即为2、相对位置判别首先，将上下文文本特征送入具有可训练参数δs的文本相对位置判别器hδs建模任意两个上下文文本特征的相对顺序：其中，为相对位置顺序预测结果，ρ为特征聚合操作；然后，应用logistic函数得到第i个文本在第k个文本前的概率at_i,k：这样，得到文本位置矩阵At: 同样，对于上下文图像特征为采用具有可训练参数δX的图像相对位置判别器hδX建模任意两个上下文图像特征的相对顺序，应用logistic函数得到图像位置矩阵Bt: 其中，bt_j,l为第j个图像在第l个图像前的概率；3、跨模态语义对齐使用CLIP预训练模型对文本集合St、图像集合Xt进行相似度计算，得到跨模态相似度矩阵其中，第i行第j列元素为ct_ij,i＝1,2,…,Nt,j＝1,2,…Mt表示第i个文本与第j张图像的相似度；4、迭代式恢复采用迭代式的矩阵更新算法来更新文本位置矩阵At、图像位置矩阵Bt：初始化一个与文本位置矩阵At大小相同的0矩阵即：然后判断文本位置矩阵At中概率at_i,k,i＝1,2,…,Nt,k＝1,2,…,Nt是否大于设定的掩码阈值θ，如果大于，则矩阵中第i行第k列元素为概率at_i,k，否则，设置为0；将图像位置矩阵Bt复制为矩阵B′t，即：然后判断矩阵元素是否等于0，如果等于，则不对图像位置矩阵Bt′进行操作，如果不等于，则在跨模态相似度矩阵Ct中找到第i行最大值元素所在列，其序号即为idxt_1，找到第k行最大值元素所在列，其序号即为idxt_2，然后，将图像位置矩阵B′t中的元素进行更新：同样地，初始化一个与图像位置矩阵Bt大小相同的0矩阵即：然后判断图像位置矩阵Bt中概率bt_j,l,j＝1,2,…,Mt,l＝1,2,…,Mt是否大于设定的掩码阈值θ，如果大于，则矩阵中第j行第l列元素为概率bt_j,l，否则，设置为0；将文本位置矩阵At复制为文本位置矩阵A′t，即：然后判断矩阵元素是否等于0，如果等于，则不对文本位置矩阵A′t进行操作，如果不等于，则在跨模态相似度矩阵Ct中找到第j列最大值元素所在行，其序号即为idst_1，找到第l列最大值元素所在行，其序号即为idst_2，然后，将文本位置矩阵A′t中的元素进行更新： 5、训练采用T组文本集合St、图像集合Xt按照步骤1～4进行处理，然后计算文本语义连贯性恢复的损失Lsen：其中，zt_i,k为第i个文本与第k个文本的正确顺序标签，如果第i个文本在第j个文本之前，则为0，反之为1；计算图像语义连贯性恢复的损失Limg：其中，yt_j,l为第j张图像与第l张图像的正确顺序标签，如果第j张图像在第第l张图像之前，则为0，反之为1；基于步骤1～4进行构建，得到弱监督的跨模态语义连贯性恢复网络，不断输入T组文本集合St、图像集合Xt，依据损失Lsen、Limg对弱监督的跨模态语义连贯性恢复网络进行训练，直至收敛；6、推理将文本集合与对应的图像集合输入到弱监督的跨模态语义连贯性恢复网络，按照步骤1～4获得文本位置矩阵A′t、图像位置矩阵B′t，然后分别使用拓扑排序算法，得到文本顺序以及图像顺序。

全文数据：

权利要求：

百度查询：电子科技大学一种弱监督的跨模态语义连贯性恢复方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：神经包埋辅助装置及其包埋方法

下一篇：衣物的香薰方法、装置、设备及介质

相关技术

神经包埋辅助装置及其包埋方法

衣物的香薰方法、装置、设备及介质

一种氧化亚铜/氧化锌复合材料及其制备方法和应用

一种多级组合式间接传热焚烧装置

托卡马克下偏滤器热管温差发电余热利用可行性验证装置

导光板及其制作方法

复合型重金属离子检测芯片和方法

一种电磁屏蔽柜钣金焊接装置

具有导向功能的玻璃钢化炉上料装置及其上料工艺

一种基于双边模糊集的三支决策疾病分类方法及装置

一种用于硝基芳香化合物合成脂环胺的催化剂及其制备方法和应用

一种饲料包装机

态相关技术

使用胶态燕麦的局部用护肤_宝洁公司_202380018184.1

机组冷态启动NOx排放控制方法、装置、介质和设备_国能浙江余姚燃气发电有限责任公司_202410821653.X

负载型硫化态加氢催化剂、及其制备方法和应用_中国石油化工股份有限公司_202310444084.7

适用于表层不稳定流态的水动力改善装置_湖北省水利水电规划勘测设计院有限公司_202420140135.7

一种缺陷态钼酸铋光催化剂及其制备方法_陕西科技大学_202410880485.1

一种用于制备流态固化土的泥浆调制装置_江苏科技大学_202410842402.X

一种锻态钢锻造裂纹预测用加热装置_青岛默森智能科技有限公司_202420393825.3

一种基于DAS监测的井筒流体流态智能识别方法_长江大学_202411259206.6

硫化态加氢催化剂及其制备方法和应用_中国石油化工股份有限公司_202310440254.4

一种利用纳米粒子的分散聚集态识别核酸分子的太赫兹传感方法_深圳大学_202410830650.2

语义相关技术

基于语义分割和图像处理的密集铜片精准计数方法和系统_中国科学院宁波材料技术与工程研究所_202310460933.8

一种顾及场景地类语义信息的特征点筛选方法及系统_中国测绘科学研究院_202410061421.9

一种基于双频融合网络的遥感图像语义分割方法_大连海事大学_202410872191.4

一种基于智能解译的卫星遥感图像语义信息生成方法_航天东方红卫星有限公司_202410848960.7

一种基于语义分割的多导联心律失常检测方法_杭州质子科技有限公司_202211062921.1

一种弱监督的跨模态语义连贯性恢复方法_电子科技大学_202410938045.7

基于标签语义的动态属性网络层次标签推理方法_天津大学合肥创新发展研究院_202410972587.6

一种基于语义先验的压缩火星图像质量增强方法和装置_北京航空航天大学_202410739061.3

一种基于关键语义信息增强的知识图谱问题生成方法_云南师范大学_202411321284.4

一种基于语义理解的专利检索方法及系统_大连理工大学_202411331353.X

模相关技术

一种鞋模自动开模合模装置_东莞市钰汇新材料科技有限公司_202323571916.6

铝材连续冲压模_苏州先科精密机械有限公司_202322957920.X

一种可以调节流道参数的模内复合模头_浙江精诚模具机械有限公司_202411245408.5

一种面包压模机_湖北阿兴食品有限公司_202420539023.9

齿轮模内埋入手掌_苏州启达工程塑料科技有限公司_202410982069.2

多模可变光衰减器_江苏旭海光电科技有限公司_201710187069.3

一种建筑混凝土试模_黑龙江阿投建设有限公司_202420481637.6

可变径圆柱铝模模具_湖北新远建筑科技有限公司_202311026195.2

一种快速换模机构_熙和欢乐(北京)科技发展有限公司_202420521766.3

一种模切设备_苏州泰迪斯电子材料有限公司_202410987237.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种弱监督的跨模态语义连贯性恢复方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务