首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

融合词汇和句法信息的中文命名实体识别方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华侨大学

摘要:本发明公开一种融合词汇和句法信息的中文命名实体识别方法及系统,包括以下步骤:步骤1、将原始输入文本映射为字向量,使用改进后的词集匹配算法引入外部词汇信息,并整合在每个字的输入表示中;步骤2、根据字的输入表示,利用双向LSTM抽取上下文信息;步骤3、使用NLP工具从原始输入文本中获取词性标签和句法成分,并且使用健值记忆网络构造句法向量,再通过门控机制对上下文向量与句法向量进行加权融合,获得特征向量;步骤4、将特征向量输入标签预测层的CRF中,实现中文命名实体识别。本发明能够解决中文命名实体中实体边界信息不足的问题和融合输入文本的句法信息。

主权项:1.一种融合词汇和句法信息的中文命名实体识别方法,其特征在于,包括:步骤1、将原始输入文本映射为字向量,使用改进后的词集匹配算法引入外部词汇信息,并整合在每个字的输入表示中;步骤2、根据字的输入表示,利用双向LSTM抽取上下文信息;步骤3、使用NLP工具从原始输入文本中获取词性标签和句法成分,并且使用健值记忆网络构造句法向量,再通过门控机制对上下文向量与句法向量进行加权融合,获得特征向量;步骤4、将特征向量输入标签预测层的CRF中,实现中文命名实体识别;其中,所述步骤1,具体包括:步骤1.1,将输入的文本视为一个句子,用序列表示为x=x1,x2,..,xn;其中,xi表示在长度为n的句子x中第i个字;为了更好的利用词汇信息,将每个字匹配字典的结果分为如下“BIES”四个词集:1词集Bxi包含所有在x上以xi开头的词语;2词集Ixi包含所有在x上xi为中间的词语;3词集Exi包含所有在x以xi为结尾的词语;4词集Sxi包含所有xi为单字的词语;步骤1.2,得到每个字对应的“BIES”词集后,将每个词集压缩为一个固定维数的向量;改进的词集匹配算法包含静态词集算法和动态词集算法,静态词集算法为了保证计算效率,使用词语出现的频率来代表对应的权重,单个词集的静态词集向量计算方法如下: 其中,表示词在语料库中出现的次数;表示词集T出现词语的总次数;表示将词语映射为词向量;T表示“BIES”四个词集中的一个;表示字xi对应词集T的向量表示;为了更好的保留信息,将四个静态词集表示为一个整体,通过拼接整合成一个固定维度的向量: 其中,τi表示字xi对应的静态词集向量;动态词集算法使用注意力机制来衡量字符和匹配词之间的信息,计算不同匹配词的注意力权重,增强有用的词汇并抑制作用不明显的词汇,如下: 其中,表示将词语映射为词向量;q是与维度相同的训练向量;为通过注意力机制得到的词语注意力分数;为归一化后的词语注意力权重;表示单个词集的动态词集向量;m表示字xi对应词集T匹配到的词语个数;通过注意力权重进行加权求和得到动态词集向量,将四个动态词集表示为一个整体并压缩为一个固定维度的向量: 其中,Aτi表示为字xi对应的动态词集向量;步骤1.3,为了充分考虑两个词集中每个词语的重要性,对对动态词集向量和静态词集向量动态加权组合;使用评估函数θi来衡量静态词集向量和动态词集向量对实体识别任务的作用:θi=σWθ1.τi+Wθ2.Aτi+bθ其中,Wθ1、Wθ2是可训练矩阵;bθ是偏置项;将字向量、静态词集向量τi和动态词集向量Aτi组合在一起,作为最终包含外部词汇信息的输入表示: 其中,表示字xi的最终向量表示;l是向量维度与匹配的1向量;ex表示将字xi转为对应的字向量;*表示点乘计算;表示向量拼接。

全文数据:

权利要求:

百度查询: 华侨大学 融合词汇和句法信息的中文命名实体识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术