申请/专利权人:中国人民解放军国防科技大学
申请日:2024-01-03
公开(公告)日:2024-04-12
公开(公告)号:CN117877047A
主分类号:G06V30/19
分类号:G06V30/19;G06V30/18;G06V10/44;G06V10/80;G06V10/764;G06V10/82;G06N3/045;G06N3/0455;G06N3/0464;G06N3/08
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.30#实质审查的生效;2024.04.12#公开
摘要:本发明提出基于视觉Transformer的中文文本识别方法,属于图像识别技术领域。本发明将视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。同时针对现有中文文本识别较少的情况,设计文文本识别基准,并测试多个模型的到较好效果。
主权项:1.一种基于视觉Transformer的中文文本识别方法,其特征在于,所述方法包括:步骤S1、获取待识别的文本图像,利用卷积神经网络ResNet45和Transformer网络对所述文本图像进行特征提取,得到视觉特征Vh;步骤S2、调用视觉注意模块抽取所述文本图像中的二维文本特征,通过位置嵌入和字符编码操作来获取位置敏感的视觉特征Vf;步骤S3、调用语义感知模块引入随机索引,基于所述随机索引和所述视觉特征Vf生成掩码图像mask;步骤S4、调用所述视觉注意模块对所述掩码图像mask和所述视觉特征Vh进行像素相乘来确定文本掩码嵌入向量,作为待融合的视觉特征Fv;步骤S5、调用所述语义感知模块,利用所述视觉特征Vf和所述文本掩码嵌入向量对所述掩码图像中的遮掩字符进行语义识别,将识别结果作为待融合的语义特征Fs;步骤S6、调用视觉语义融合模块,基于分配权重的方式对所述待融合的视觉特征Fv和所述待融合的语义特征Fs进行融合,以输出对所述文本图像的识别结果。
全文数据:
权利要求:
百度查询: 中国人民解放军国防科技大学 基于视觉Transformer的中文文本识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。