首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于跨模态协同推理的图像美学质量评价方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州电子科技大学

摘要:本发明公开了一种基于跨模态协同推理的图像美学质量评价的方法。本发明包括如下步骤:步骤1提取多尺度视觉特征;步骤2基于图网络提取视觉结构特征;步骤3提取视觉聚合特征与文本聚合特征;利用Transformer模型提取多尺度文本特征后,利用协同注意力模块对多尺度视觉特征和多尺度文本特征进行重构,挖掘两者之间的关联关系,提取视觉聚合特征与文本聚合特征;步骤4多模态低秩双线性特征融合以及多任务美学质量评价,将视觉结构特征与视觉聚合特征、文本聚合特征进行低秩双线性特征融合,并利用多任务学习思想,提升图像美学质量评价性能。本发明为探索人类的美学认知机制,提升美学评价模型的可解释性,提供了一种有效的技术路线。

主权项:1.一种基于跨模态协同推理的图像美学质量评价的方法,其特征在于能够同时利用图像内容和文本评论进行图像美学质量评价,具体包括如下步骤:步骤1提取多尺度视觉特征:利用目标检测基准网络检测图像中的目标区域,基于ROI池化提取区域特征、关联特征、目标特征组成多尺度视觉特征;步骤2基于图网络提取视觉结构特征:利用图模型建模图像结构,进而提取视觉结构特征;步骤3提取视觉聚合特征与文本聚合特征:利用Transformer模型提取多尺度文本特征后,利用协同注意力模块对多尺度视觉特征和多尺度文本特征进行重构,挖掘两者之间的关联关系,提取视觉聚合特征与文本聚合特征;步骤4多模态低秩双线性特征融合以及多任务美学质量评价:将视觉结构特征与视觉聚合特征、文本聚合特征进行低秩双线性特征融合,并利用多任务学习思想,提升图像美学质量评价性能;步骤2所述的基于图网络提取视觉结构特征,具体实现如下:2-1将目标特征、关联特征、区域特征对应的图像块作为节点,图像块对应的深度特征、重心位置、面积作为节点属性特征;对所有节点构建全连接无向图,将各个图像块之间的IoU、归一化空间距离、特征表达之间的余弦距离作为边属性特征;将整幅输入图像全局池化得到的特征作为全局属性特征;2-2采用DIFFPOOL池化方法将该全连接无向图及其属性特征矩阵进行聚合,得到视觉结构特征量;所述的属性特征矩阵包括节点属性特征、边属性特征和全局属性特征;DIFFPOOL基于输入全连接无向图表示的邻接矩阵A及获取的属性特征矩阵X,利用池化型图网络GNNpool预测特征汇聚权重S,进行特征嵌入;邻接矩阵A与属性特征矩阵X在第l+1层的计算表达为:Al+1,Xl+1=DiffPoolAl,Xl,1计算过程为:Sl=softmaxGNNl,poolAl,Xl,2 其中,Sl为在第l层的特征汇聚权重,分别为第l+1层的邻接矩阵和属性特征矩阵;经过L层图网络之后,得到最终的视觉结构特征的表达向量XL,用于图像美学质量的预测;步骤4所述的多模态低秩双线性特征融合以及多任务美学质量评价,具体实现如下:4-1基于双线性池化方法将不同分支得到的特征进行融合采用低秩双线性特征融合方法,假设视觉结构特征XL为s∈Rm,视觉聚合特征为v∈Rn,文本聚合特征为t∈Rk,采用三个低秩映射将其映射到同一空间中: 其中,U∈Rm×c,V∈Rn×c,W∈Rk×c是低秩映射矩阵,c是输出特征维度,为Hadamard积,即两个向量之间元素之间的点乘;融合后的特征可以用于后续的美学质量预测;4-2采用多任务学习思想对融合后的特征,同时预测美学二分类标签、平均分数、分数分布、内容和风格;分别对应采用交叉熵损失、L2损失、推土机距离损失、多标签交叉熵损失和单标记交叉熵损失;在训练阶段,将所有损失进行加权求和用于指导整个模型的训练;模型完成训练后,在测试阶段,对于给定输入图像及其对应的文本评论,模型输出图像对应的美学二分类标签、平均分数、分数分布、内容和风格。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 一种基于跨模态协同推理的图像美学质量评价方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。