首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合多模态的简历版面分析方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:的卢技术有限公司

摘要:本发明公开了一种融合多模态的简历版面分析方法及装置,所述方法包括:以简历图片为数据源,对简历图片里的文本行区域进行抽取获得文本位置信息,对文本区域中文本内容进行识别获得文本自然语言信息,输入文本自然语言信息生成文本内容编码,输入文本位置信息生成文本的位置编码,通过注意力机制分别计算文本与文本间注意力矩阵以及文本与相对位置间注意力矩阵,根据注意力矩阵生成结果矩阵,获得结构化简历。本发明以相对位置注意力编码为核心设计融合自然语言信息与位置信息的深度学习模型,综合考虑自然语言信息与其对应的位置信息,具有简历全文的感受野,可以有效使用到上下文信息,算法精度得到有效保障。

主权项:1.一种融合多模态的简历版面分析方法,其特征在于,包括以下步骤:1以简历图片为数据源,使用craft算法对简历图片里的文本行区域进行抽取,生成文本框,获取简历图片的文本位置信息;2以简历图片为数据源,使用crnn算法对简历图片中的文本内容进行识别,获得文本自然语言信息;3将文本自然语言信息作为输入,使用albert语言模型对自然语言信息进行编码,获得文本内容编码;4将文本位置信息作为输入,使用正弦位置编码生成文本的位置编码;5使用注意力机制融合文本内容编码和文本位置编码,设定简历内容的类别,对每个文本框进行分类,判断文本框的行关系,将应该属于一行的零碎文本框归纳为一行,使用注意力机制对文本行关系结果与文本框类别进行解码,输出文本行所属的类别,获得结构化简历;所述步骤5具体为:5.1将文本内容编码与文本绝对位置信息融合,方法为:arr1=txt+abs,其中txt为文本内容编码矩阵,abs为文本绝对位置信息矩阵,arr1为过程矩阵;5.2融合相对位置信息矩阵,方法为:arr2=arr1*posT,其中pos为文本间相对位置信息矩阵,arr2为注意力矩阵;5.3注意力矩阵通过线性变换生成out1和out2,out1用来判断当前文本框所属的类别,out2用来判断文本框之间是否属于同一行;5.4将一行中的文本框,从左至右排列,根据文本框所属类别的众数输出该行所属的类别,输出结构化简历。

全文数据:

权利要求:

百度查询: 的卢技术有限公司 一种融合多模态的简历版面分析方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。