申请/专利权人:大连海事大学
申请日:2021-11-23
公开(公告)日:2024-06-21
公开(公告)号:CN114023412B
主分类号:G16H10/60
分类号:G16H10/60;G06Q10/04;G06F18/213;G06N3/0442;G06N3/0499;G06N3/098;G06F40/30
优先权:
专利状态码:有效-授权
法律状态:2024.06.21#授权;2022.02.25#实质审查的生效;2022.02.08#公开
摘要:本发明公开了一种基于联合学习和去噪机制的ICD代码预测方法及系统,涉及自然语言处理技术领域,使用clinicalBERT预训练,设计了基于提示的微调方法,提升冗长句子的表征效果,加快预训练的速度;使用双路注意力机制处理电子病历和医疗代码的文档,同时兼顾两部分数据,有效处理不平衡分类问题;将不同的注意力矩阵馈送到联合学习模块,引入两个权重系数,来自适应的确定这两个系数,通过这两个系数构建特定于ICD的注意力矩阵;设计了新型的去噪损失函数,引入损失阈值,计算样本损失,并进行排序,从超过阈值的样本开始截断,丢弃迭代过程中超过动态阈值的样本,最终识别和清洗嘈杂的样本,提高分类器的训练质量。
主权项:1.一种基于联合学习和去噪机制的ICD代码预测方法,其特征在于,包括:获取电子病历数据集和ICD代码描述文件,并对所述电子病历数据集和ICD代码描述文件进行预处理;建立基于深度学习网络的ICD代码预测模型,并利用预处理后的所述电子病历数据集和所述ICD代码描述文件对所述ICD代码预测模型进行训练;所述ICD代码预测模型以电子病历和ICD代码描述文件作为输入,将预处理之后的电子病历输入到clinicalBERT预训练模型,插入分隔符,学习连续的提示,构造基于提示的微调方法,以提取整个电子病历文本的特征,输出电子病历词向量文件,固定模型初始参数;采用词嵌入方式处理预处理之后的ICD代码描述文件,输出ICD代码词向量文件;将所述电子病历词向量文件和所述ICD代码词向量文件输入残差神经网络中提取特征;将提取出的特征输入图长短期记忆网络,学习电子病历的上下文信息,输出特征向量;使用基于双路注意力机制循环神经网络捕捉ICD代码描述文件和电子病历文本中的数据和特征的内部相关性,得到标签注意力矩阵和交叉注意力矩阵;将标签注意力矩阵和交叉注意力矩阵馈送到联合学习模型中,得到标签注意力矩阵的权重和交叉注意力矩阵的权重;基于标签注意力矩阵的权重和交叉注意力矩阵的权重对所述标签注意力矩阵和所述交叉注意力矩阵进行重构,得到ICD代码的注意力矩阵;对所述ICD代码的注意力矩阵进行去噪,再将去噪之后的结果输入到全连接神经网络中,最终输出电子病历的ICD代码;获取待预测电子病历,将所述待预测电子病历输入训练好的所述ICD代码预测模型中,得到与所述待预测电子病例匹配的ICD代码。
全文数据:
权利要求:
百度查询: 大连海事大学 基于联合学习和去噪机制的ICD代码预测方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。