申请/专利权人:昆明理工大学
申请日:2024-03-07
公开(公告)日:2024-06-04
公开(公告)号:CN118136267A
主分类号:G16H50/70
分类号:G16H50/70;G16H10/20;G06N3/0442;G06N3/0455;G06N3/084
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.06.21#实质审查的生效;2024.06.04#公开
摘要:本发明涉及一种临床术语标准化方法,属于自然语言处理领域。本发明首先使用在线负采样策略,为训练提供了更合适的负样本,结合深度度量学习模型来召回语义相似的候选术语,提高了模型的性能;其次引入了一种增强特征的自注意力机制来增强的局部特征,结合全局语义信息同时进行召回和蕴含数量预测;最后使用BERT结合交叉注意力机制对候选术语进行了重排序。通过以上过程本发明达到了对临床术语进行标准化,从而提升医疗文本的利用率。
主权项:1.一种临床术语标准化方法,其特征在于,所述方法包括如下:Step1、获取中文临床术语标准化数据集,并且对数据进行预处理操作;Step2、使用在线采样的方法对数据集中的原始词进行负采样,为模型召回候选术语提供训练样本;Step3、构建模型,对输入模型的原始词正负样本使用中文预训练模型BERT对上下文进行编码,并使用双向LSTM进一步提取文本上下文特征;使用三元组损失来区分原始词和正样本、原始词和负样本之间的距离,从而学习语义信息,并召回候选术语;利用改进自注意力机制用于对包含上下文信息的词向量局部特征进行增强,从而进行原始词蕴含预测,提升对原始词蕴含预测效果;Step4、利用BERT对候选词进行重排序,结合蕴含预测返回最终结果。
全文数据:
权利要求:
百度查询: 昆明理工大学 一种临床术语标准化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。