买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京理工大学;中国科学院自动化研究所
摘要:本发明涉及一种连贯性增强的图像段落语义描述方法,属于自然语言处理与计算机视觉技术领域。首先利用预训练的视觉模型提取图像中显著物体的特征向量。其次,在视觉信息增强中,先通过聚合层将特征向量的数量聚合为句子描述的数量,实现视觉特征向量直接和句子描述对齐,再通过投影层将特征向量投影到描述生成空间中。再次,利用融合门机制融合上一句已生成描述的语义向量和投影后的特征向量。最后,构建句子级损失和单词级损失,利用梯度下降方法更新模型参数。本发明有效提升了图像段落语义描述的连贯性,弥补了基于传统图像段落语义描述模型导致的段落文本不连贯、缺失图像细节等问题,为进一步提升图像段落语义描述系统性能提供了指导和参考。
主权项:1.一种连贯性增强的图像段落语义描述方法,其特征在于,包括以下步骤:步骤1:数据预处理,包括进行部分字符的删除和替换,将标注的段落描述PG分割为多个句子级描述,统计一个段落包含的最多句子数量S;步骤2:视觉特征提取,获得待描述图像的视觉特征V,V={v1,v2,…,vN},vN表示第N个提取的视觉特征向量;步骤3:视觉信息增强,基于视觉信息增强,将视觉特征直接映射为句子描述的主题向量Vproj,表示第S个映射后的主题向量;步骤4:连贯性建模;对于每个待生成的句子描述,将已生成句子的语义向量与投影后的向量经过融合门获得融合向量Ft;将Ft输入文本生成模型,获得一个生成的句子级描述di;多个句子描述连在一起,即为模型生成的段落描述Pg;步骤5:模型训练;预测句子结束标志,以及利用结束标志和单词概率分布构建交叉熵损失函数,利用梯度下降算法进行模型训练;首先进行段落结束预测,为增强模型对句子级语义的感知,根据句子描述的主题向量预测该句是否为段落的最后一句tokeni,tokeni=STOPorCONTINUE;然后基于tokeni、Pg和PG进行模型训练;步骤6:基于训练好的模型,对输入的图像进行段落语义描述。
全文数据:
权利要求:
百度查询: 北京理工大学 中国科学院自动化研究所 一种连贯性增强的图像段落语义描述方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。