首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种结合注意力机制和语义类型过滤的电子病历命名实体识别标准化方法 

申请/专利权人:重庆邮电大学

申请日:2022-12-28

公开(公告)日:2024-06-28

公开(公告)号:CN118261156A

主分类号:G06F40/295

分类号:G06F40/295;G06F40/30;G06N5/04;G06N3/08;G16H10/60;G06N3/0464

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本发明属于自然语言处理领域,具体涉及种结合注意力机制和语义类型过滤进行电子病历的命名实体标准化方法,该方法通过数据的预处理提高准确率,然后输入BERT+BiLSTM+CRF进行实体识别,再将每个识别到的提及和WikiMed数据集中的标准实体计算余弦相似度分数获得初步的候选实体集合。在初步筛选之后,为了进一步缩小候选实体的数量加快推理的速度并且对不适用的标准实体进行提出,本发明使用了语义类型过滤的方法将不同语义类型的候选实体去除。最终,在候选实体排名模块中在提及和候选实体之间结合Self‑Attention以及Cross‑Attention,进一步学习自身和两者间的特征,明显提高了模型的准确率。

主权项:1.一种结合注意力机制和语义类型过滤进行电子病历的命名实体标准化方法,该方法包括:对医疗电子病历数据预处理;将处理好的电子病历输入BERT+BiLSTM+CRF模型中进行实体识别;将得到的实体作为提及,通过和WikiMed数据集中的标准实体计算相似度,按照得分排序初步生成候选实体列表;再将提及和初步生成的候选实体列表输入语义类型过滤模块,根据提及的语义类型对候选实体列表进行过滤,进一步减少候选实体的产生,提高标准化的效率;最后使用候选实体排名模块融合提及的Self-Attention信息以及提及和候选实体之间Cross-Attention信息;最后,输入聚合层计算出候选实体的最终得分,得分最高的候选实体作为提及的标准化实体。具体包括以下步骤:S1、获取电子病历数据,然后进行预处理;S2、使用实体识别模型BERT+BiLSTM+CRF对电子病历进行实体识别;S3、将S2中识别到的每个医疗实体作为提及,将每个提及和WikiMed数据库中的实体计算余弦相似度分数,并返回分数最高的前40个实体作为候选集;S4、将S3中得到的候选实体集合输入语义类型过滤模块来修剪不相关的候选实体,通过简化最终的消歧步骤,提高实体链接的性能,最终输出前20的实体作为候选实体;S5、对从S4中经过过滤得到的候选实体集合与提及输入到BiGRU进行编码,用Self-Attention模块对提及内的关系进行建模,并采用Cross-Attention模块对提及和候选人的实体间关系进行建模;S6、采用1d-CNN和pool操作,将提及和候选实体的匹配向量聚合为固定长度的向量,使用两层全连接神经网络来计算最终得分。

全文数据:

权利要求:

百度查询: 重庆邮电大学 一种结合注意力机制和语义类型过滤的电子病历命名实体识别标准化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。