首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多蕴含临床术语重组的术语标准化方法、系统 

申请/专利权人:华东理工大学

申请日:2024-03-21

公开(公告)日:2024-06-25

公开(公告)号:CN118246439A

主分类号:G06F40/242

分类号:G06F40/242;G16H10/60;G16H70/00;G06F16/36

优先权:

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:本发明公开了一种基于多蕴含临床术语重组的术语标准化方法、系统,涉及临床术语标准化领域,方法包括:根据目标待标准化术语类型,确定术语组成成分类型集、标准术语库;利用LLM,自动化地拆分识别多蕴含术语并进行数据清洗,得到结构化的组成成分序列;利用基于规则的术语重组算法,得到一多个原子术语,解决临床术语标准化存在的多蕴含问题;利用LLM,自动化标注单蕴含术语标准化任务训练集数据,解决人工标注费时费力的问题;利用对比学习和在线负采样策略,基于向量搜索算法确定每个原子术语各自召回得到的候选标准术语,提升术语标准化结果的召回率;利用基于知识引导的精排模型,确定最终的标准术语答案,提升术语标准化结果的准确率。

主权项:1.一种基于多蕴含临床术语重组的术语标准化方法,包括:根据目标待标准化术语类型,确定术语组成成分类型集、标准术语库;所述待标准化术语类型包括临床疾病诊断、手术术式;所述术语组成成分类型包括发病部位、发病内容、操作内容等;所述标准术语库包括ICD10、ICD9等;利用大型语言模型LLM,自动化地拆分识别多蕴含术语,得到该术语的组成成分表;所述组成成分表包括以较细粒度拆分的得到的术语组成成分原词,各组成成分原词在当前术语中对应的成分类型,各组成成分原词的领域内同义词;对组成成分表进行数据清洗,得到结构化的组成成分序列;所述数据清洗包括残缺数据清洗、多余数据清洗、错误数据清洗、顺序调整;利用基于规则的术语重组算法,根据所述结构化的组成成分序列,确定重组后的一多个原子术语;所述规则根据医学专家意见,人工手写确定;利用LLM,根据所述重组后的一多个原子术语和标准术语库,自动化标注单蕴含术语标准化任务训练集数据;利用基于对比学习框架和在线负采样策略的召回算法,根据所述单蕴含术语标准化任务训练集数据和标准术语库,训练召回模型,确定最终召回模型权重;利用向量搜索算法,根据所述召回模型权重、重组后的一多个原子术语和标准术语库,确定每个原子术语各自召回得到的topk个候选标准术语;所述候选标准术语来自确定的标准术语库;利用基于知识引导的精排模型,根据所述重组后的一多个原子术语、结构化的组成成分序列和候选标准术语,确定每个原子术语对应的标准术语答案;所述标准术语答案来自候选标准术语;根据所述每个原子术语对应的标准术语答案,确定多蕴含术语对应的一多个标准术语。

全文数据:

权利要求:

百度查询: 华东理工大学 一种基于多蕴含临床术语重组的术语标准化方法、系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。