首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合词典与字符特征的字符序列识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京交通大学

摘要:本发明提供了一种融合词典与字符特征的字符序列识别方法。该方法包括:获取输入序列中的每个字符匹配的词典中的三类词典匹配词,将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接,得到词典增强的字符嵌入向量;将词典增强的字符嵌入向量与三类词典匹配词进行拼接后,送入Transformer的编码层,Transformer的编码层输出待解码信息;将待解码信息输入至条件随机场CRF解码层进行解码,得到输入序列的标注结果。本发明的方法通过综合词典的匹配词在字符嵌入、模型推理阶段对字符特征的交互、匹配词以及字符的位置信息增强的向量表示,从而有效地增强模型对文本句子在嵌入过程以及推理过程中对语义信息的表示与理解。

主权项:1.一种融合词典与字符特征的字符序列识别方法,其特征在于,包括:获取输入序列中的每个字符匹配的词典中的三类词典匹配词,将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接,得到词典增强的字符嵌入向量;将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后,送入Transformer的编码层,Transformer的编码层输出待解码信息;将所述待解码信息输入至条件随机场CRF解码层进行解码,得到所述输入序列的标注结果;所述的获取输入序列中的每个字符匹配的词典中的三类词典匹配词,将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接,得到词典增强的字符嵌入向量,包括:给定输入序列为C=[c1,c2,c3,…,cn],输入序列C中的第i个字符为ci,通过预定义的字符表对字符ci进行标记并输入至BERT编码器,得到字符ci的字符嵌入向量 分别表示与字符ci对应的该字符在词首、词中、词尾的三类词典匹配词集嵌入向量,B、M、E分别表示该字符在词首、词中、词尾的三类匹配词集,令词集Z=B|M|E,词集R=B∪M∪E,则具体计算如下: 其中,weightw表示匹配词w在某一类词集中的权重,numw表示匹配词w在语料中出现的频数,ew表示匹配词w的嵌入表示,e表示词典的查找表;将字符嵌入向量与对应的三类匹配词嵌入向量进行拼接,将拼接结果作为第i个词典增强的字符嵌入向量词典增强的字符序列所述的将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后,送入Transformer的编码层,Transformer的编码层输出待解码信息,包括:将词典增强的字符序列xrep经过线性降维后,与字符ci对应的词首、词中、词尾的三类匹配词集B、M、E进行拼接后,分别加上开始位置嵌入向量pstart以及结束位置嵌入向量pend,得到词典增强模型的输入xdec,字符序列的开始位置与结束位置相同,每个匹配词的开始位置即为该词第一个字符所在的位置,结束位置即为该词最后一个字符所在的位置,计算如下:xdec=[xrepW1;ew1,ew2,ew3,…,ewk]+pstart+pend其中,W1表示模型参数,p表示位置信息的查找表;将xdec输入至Transformer的编码结构,Transformer的编码结构输出待解码信息A。

全文数据:

权利要求:

百度查询: 北京交通大学 一种融合词典与字符特征的字符序列识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。