恭喜福州大学柯逍获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜福州大学申请的专利基于解耦特征引导的多模态文本页面分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115761757B 。
龙图腾网通过国家知识产权局官网在2025-05-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211374707.X,技术领域涉及:G06V30/19;该发明授权基于解耦特征引导的多模态文本页面分类方法是由柯逍;许培荣设计研发完成,并于2022-11-04向国家知识产权局提交的专利申请。
本基于解耦特征引导的多模态文本页面分类方法在说明书摘要公布了:本发明涉及一种基于解耦特征引导的多模态文本页面分类方法,包括以下步骤:获取电子文本页面数据构建训练集,并基于训练集训练双流的端到端Transformer编码网络,所述双流的端到端Transformer编码网络包括视觉特征提取器、语言特征提取器和跨模态融合编码器;将待分类的电子文本页面的文本数据输入语言特征提取器获得深层语言特征;将待分类的电子文本页面的图像数据输入视觉特征提取器获得深层视觉特征;将得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征,并用于分类网络进行分类。本发明能够有效地通过多模态方法对电子文本页面进行准确分类。
本发明授权基于解耦特征引导的多模态文本页面分类方法在权利要求书中公布了:1.一种基于解耦特征引导的多模态文本页面分类方法,其特征在于,包括以下步骤:获取电子文本页面数据构建训练集,并基于训练集训练双流的端到端Transformer编码网络,所述双流的端到端Transformer编码网络包括视觉特征提取器、语言特征提取器和跨模态融合编码器;将待分类的电子文本页面的文本数据输入语言特征提取器获得深层语言特征;将待分类的电子文本页面的图像数据输入视觉特征提取器获得深层视觉特征;将得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征,并用于分类网络进行分类;所述视觉特征提取器包括第一解耦表征网络模块、引导对齐模块和视觉编码器;所述视觉特征提取器处理数据的方法,具体如下:待分类的电子文本页面的图像数据通过第一解耦表征网络模块处理,解耦得到形状特征fshape、颜色特征fhsv和像素特征fgray;将得到的形状特征fshape、颜色特征fhsv、像素特征fgray和S22中得到的剩余文本特征Etail输入引导对齐模块进行引导对齐得到浅层视觉特征Ev;将浅层视觉特征Ev输入视觉编码器进行加工,进一步提取视觉特征得到深层视觉特征Fv;其中对常规的视觉编码器中的自注意力层进行替换,采用加入高斯核函数生成mask的Transformer自注意力层,通过高斯注意力GAttn·得到更加关注中心区域的视觉模态特征,其计算公式如下: 其中μr,μl,σ为超参数,μr,μl表示高斯函数均值,σ表示高斯模糊系数,Wq,Wk,Wθ分别为自注意力机制中Q值,K值和为高斯权重设置的可学习权重参数,r,l为特征点在特征图中的位置索引,T为矩阵转置符号;设I={x1,x2,…,xN}为从网络获取电子文本页面图像训练集,xi为第i张图像,对文本页面图像进行分片操作得到图像片段序列Xi=Patchxi,Patch·为一个卷积核大小为32×64,步长为32,64的卷积核;并将图像片段序列Xi通道信息去掉,作为二维图像像素特征序列fgray;对图像xi通过不同大小的高斯核G·处理图像,并得到高斯差分金字塔DOG·;采用SIFT方法在高斯差分金字塔中提取图像极值特征点描述符keypints,并采用主成分分析法PCA·获得128维特征值SIFTval和特征向量SIFTvec;将特征值序列输入一层全连接网络提取为特定长度的一维图像形状特征序列fshape,其计算公式如下:DOGxi,σ=Gxi,i*σ-Gxi,σ*xiSIFTval,SIFTvec=PCAkeypints{xi,yi|∈DOGIk,σ},128fshape=wsp·SIFTval+bsp其中σ为高斯模糊系数,wsp,bsp为全连接层权重;通过提取图像xi的HSV特征,将特征值序列通过一层全连接网络映射为特定长度的一维颜色特征序列fhsv,其计算公式如下:HSV=CalcHistH+S+Vfhsv=whsv·HSV+bhsv其中H,S,V分别表示图像色调、饱和度、明度,CalcHist·表示颜色直方图统计函数,whsv,bhsv为全连接层权重;将形状特征、颜色特征和像素特征共同输入引导对齐模块进行处理,通过解耦的特征进行引导融合替代传统视觉特征;分别通过MLP将形状特征fshape、颜色特征fhsv、像素特征fgray嵌入特征空间,使像素特征空间受到形状和颜色特征空间的引导,得到特征空间E1表示为:E1=γ1*LNWg·fgray+γ2*LNWsh·fshape+γ3*LNWc·fhsv其中Wg,Wsh,WC分别表示MLP权重,γ1,γ2,γ3分别是fgray,fshape和fhsv特征加权超参数,LN·表示一个LayerNorm归一化层;将剩余文本特征Etail通过1×1通道卷积实现与视觉特征E1维度对齐,并与E1拼接输入一个自注意力层进行语义对齐得到浅层视觉特征Ev替代已有的合并特征,其计算公式如下:Ev=selfAttn[E1,Conv1x1Etail]其中selfAttn·为标准自注意力模块,Conv1x1·表示1×1通道卷积;将浅层视觉特征Ev输入视觉编码器进行加工。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福州大学,其通讯地址为:350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。