首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于边界检测的中文命名实体识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:安徽理工大学

摘要:本发明公开了一种基于边界检测的中文命名实体识别方法,可以广泛应用于信息处理领域中。包括以下步骤:S1对目标文本进行处理和多粒度表示;S2利用以多粒度嵌入向量为输入的双向门控循环网络BiGRU获得字粒度的上下文相关信息;S3根据每个字的上下文相关信息,神经网络判断每个字是否为实体的边界位置;S4将每个实体边界位置组装成候选实体,并共享S2中的上下文信息表示候选实体;S5利用实体分类器对候选实体进行细粒度处理,识别实体类型,完成命名实体识别。本发明检测出实体的边界位置后,根据边界位置组装候选实体,再对候选实体进行分类命名,完成命名实体识别,在保证了中文命名实体识别准确率的同时,提高中文命名实体识别的召回率。

主权项:1.一种基于边界检测的中文命名实体识别方法,其特征在于,包括如下步骤:步骤1:对目标文本处理和多粒度表示,其基本步骤如下:步骤1.1:将所述目标文本根据标点符号进行切分,得到句粒度文本;步骤1.2:对处理后的句粒度文本进行字粒度嵌入向量表示,得到字粒度嵌入向量步骤1.3:同时对句粒度文本进行分词,对分词结果进行词粒度嵌入向量表示,得到词粒度嵌入向量步骤1.4:将所述的字粒度嵌入向量和词粒度嵌入向量进行融合得到多粒度嵌入向量ei;步骤2:将多粒度嵌入表示ei输入BiGRU,得到第i位置的上下文信息hi,其中,BiGRU是由前向GRU和后向GRU组成,即第i位置的上下文隐藏信息hi由前向GRU和后向GRU的输出拼接而成;步骤3:利用神经网络对每个时刻的上下文信息hi进行解码,判断hi所代表的位置i是否为实体的开始位置或者结束位置,其基本步骤如下:步骤3.1:神经网络指的是多层感知机和Sigmoid激活函数,对每一个位置上的隐藏信息hi进行解码指的是利用多层感知机提取隐藏信息hi的边界信息;步骤3.2:Sigmoid输出最后的结果,即该位置是实体的开始位置或结束位置的可能性,用PiB和PiE这两种标签值分别表示;步骤3.3:使用log似然函数作为训练开始位置和结束位置这两种标签的损失函数,用表示开始位置的损失函数,用表示结束位置的损失函数;步骤3.4:公式联合和这两中损失来优化最终的预测结果;步骤4:利用贪婪算法将每个实体边界位置尽可能地组装出候选实体,并共享步骤2中的上下文信息表示候选实体,其基本步骤如下:步骤4.1:利用右贪心匹配,通过边界检测得到的每个开始边界贪婪地匹配右侧n个结束边界,得到多个候选实体;步骤4.2:共享来自步骤2中BiGRU输出的上下文信息来表示候选实体,即候选实体Eij=[hi,...,hj];步骤5:利用实体分类器对候选实体进行细粒度化处理,识别实体类型,完成命名实体识别,其内容如下:使用多层感知机加Softmax激活函数作为实体分类器并预测实体的类别标签;训练过程中的损失是所有标签损失的和,损失函数的计算方式是交叉熵损失函数。

全文数据:

权利要求:

百度查询: 安徽理工大学 一种基于边界检测的中文命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。