首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于局部特征整合的医学嵌套命名实体识别方法_芽米科技(广州)有限公司_202111392829.7 

申请/专利权人:芽米科技(广州)有限公司

申请日:2021-11-23

公开(公告)日:2024-06-18

公开(公告)号:CN113948217B

主分类号:G16H50/70

分类号:G16H50/70;G06F40/295;G06N3/0442;G06N3/0464;G06N3/045;G06N3/084;G06N3/09

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2024.01.26#专利申请权的转移;2022.02.08#实质审查的生效;2022.01.18#公开

摘要:本发明属于自然语言处理的命名实体识别领域,具体涉及一种基于局部特征整合的医学嵌套命名实体识别方法,该方法包括:该方法包括:对文本实体进行打标;通过双向长短期记忆网络来捕捉正向文本特征和反向文本特征;使用卷积神经网络提取局部特征,并采用匹配度评分矩阵为双向特征进行打分;重复上述过程,直到设定的最大实体长度,得到所有的预测实体;本发明采用了BiLSTM采集文本关键信息,将正向信息与反向信息剥离开,对他们进行分开操作;采用局部特征整合,将实体所处在的前后语义背景信息与实体内部的信息链接相区分,保证实体的产生是具有语义环境,并使得内部紧密有序。

主权项:1.一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,包括:获取待识别的医学嵌套命名实体,将该命名实体输入到医学文本嵌套命名实体识别模型中,得到识别结果;对医学文本嵌套命名实体识别模型进行训练的过程包括:S1:获取原始医学文本数据和标签数据,根据文本数据的实体长度采用标签数据对医学文本数据进行标注;将标注的数据集划分为训练集和测试集;S2:将训练集中的文本数据转化为对应的词向量,采用基于自注意力机制的BiLSTM模型对词向量进行处理,得到一组包含前向信息和后向信息的向量;将该向量划分为正向文本信息和反向文本信息;S3:采用局部特征匹配模型对正向文本信息和反向文本信息分别进行处理,提取文本的局部信息,并对正向信息和反向信息的匹配度进行评分;具体包括:初始化当前实体的长度item_len;采用卷积核大小为item_len的CNN分别对正向信息和反向信息进行局部整合,得到局部特征;对正向和反向信息的匹配度进行评分,得到头尾指针匹配度矩阵;S4:根据文本的局部信息、正向信息匹配度评分以及反向信息匹配度评分对实体长度进行预测;具体包括:根据头尾指针匹配度矩阵将基于注意力机制的BiLSTM模型输出的特征与局部特征进行融合,将融合后的特征进行分类,得到预测的实体长度;S5:根据预测的实体长度计算模型的损失函数;S6:将测试集中的数据输入到模型中,不断重复步骤S3~步骤S5,直到得到最大的实体长度,完成模型的训练。

全文数据:

权利要求:

百度查询: 芽米科技(广州)有限公司 一种基于局部特征整合的医学嵌套命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。