【发明授权】一种基于预训练语言模型的ICD自动编码方法_中南大学_202410165651.X

导航：龙图腾网> 最新专利技术> 一种基于预训练语言模型的ICD自动编码方法_中南大学_202410165651.X

申请/专利权人：中南大学

申请日：2024-02-05

公开（公告）日：2024-04-23

公开（公告）号：CN117708339B

主分类号：G06F16/35

分类号：G06F16/35;G06F16/33;G06N3/0455;G06N3/0464;G06N3/08;G16H10/60

优先权：

专利状态码：有效-授权

法律状态：2024.04.23#授权;2024.04.02#实质审查的生效;2024.03.15#公开

摘要：本发明实施例中提供了一种基于预训练语言模型的ICD自动编码方法，属于数据处理技术领域，具体包括：构建ICD自动编码数据集；形成映射集；构造前缀树，结合前缀树形成LEDT模型；将ICD自动编码数据集分为训练集和验证集；分别将训练集和验证集中的临床文本和其对应的ICD代码分割；利用seq2seq训练数据集训练LEDT模型；将待编码数据集中的输入文本输入目标模型，并在目标模型的解码生成过程中，使用前缀树对生成的字符进行限制，同时使用集束算法保留输出得分最高的k个预测描述，最终利用映射集将输出的k个预测描述转换为对应的ICD代码作为预测输出。通过本发明的方案，提高了编码效率、精准度和适应性。

主权项：1.一种基于预训练语言模型的ICD自动编码方法，其特征在于，包括：步骤1，根据电子病历构建ICD自动编码数据集，其中，所述ICD自动编码数据集包括临床文本和其对应的ICD代码；步骤2，从ICD代码描述库中获取ICD代码对应的代码描述，并形成映射集；步骤3，对代码描述进行分词，得到ids序列并据此构造前缀树，在预训练模型的基础上调整编码器的输入范围和视野范围，结合前缀树形成LEDT模型；所述步骤3具体包括：步骤3.1，对代码描述进行分词并转换成预训练语言模型中的ids序列，在该ids序列前加上预训练语言模型生成过程中所使用的开始符号的ids，在ids序列末尾添加上模型生成过程中所使用的结束符号的ids，构造模型生成的目标代码ids序列；步骤3.2，对全部代码描述的ids序列进行上述操作，构造前缀树；步骤3.3，扩展预训练模型中编码器可处理的输入数据的范围，并设置其注意力的视野范围，结合前缀树形成LEDT模型；步骤4，将ICD自动编码数据集分为训练集和验证集；步骤5，分别将训练集和验证集中的临床文本和其对应的ICD代码分割，得到文本序列和其对应的ICD代码序列，并将ICD代码序列通过映射集得到对应的代码描述，据此形成seq2seq训练数据集和seq2seq验证数据集；步骤6，采用teacherforcing方法，利用seq2seq训练数据集训练LEDT模型，更新模型参数，在每个训练轮次结束之后，将seq2seq验证数据集输入到LEDT模型中，记录损失最小时的模型参数；步骤7，选择在seq2seq验证数据集中损失最小的模型参数得到目标模型，将待编码数据集中的输入文本输入目标模型，并在目标模型的解码生成过程中，使用前缀树对生成的字符进行限制，使得LEDT模型生成的字符串是代码描述中的子集，同时使用集束算法保留输出得分最高的k个预测描述，最终利用映射集将输出的k个预测描述转换为对应的ICD代码作为预测输出；所述步骤7具体包括：步骤7.1，将待编码数据集中的输入文本输入目标模型，目标模型的分词器将输入文本分词并转换为ids序列，利用目标模型的编码器将其进行编码得到输入文本的上下文向量；步骤7.2，设定解码器生成的第一个字符为开始字符；步骤7.3，以上一时间步的解码器隐状态和预测描述作为解码器输入，更新解码器隐状态；步骤7.4，将更新后的解码器隐状态送入一个线性层网络，计算当前时间步的输出作为预测描述；步骤7.5，查询前缀树，将不属于前缀树的预测描述的符号得分概率置零；步骤7.6，使用集束搜索算法保留得分最高k个的预测描述；步骤7.7，重复步骤7.3至步骤7.6直至完成全部时间步预测，得到k个预测描述并利用映射集将输出的k个预测描述转换为对应的ICD代码作为预测输出。

全文数据：

权利要求：

百度查询：中南大学一种基于预训练语言模型的ICD自动编码方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种皮带机料仓缓冲装置_唐山天和环保科技股份有限公司_202322478618.6

下一篇：一种水泥搅拌机防尘装置_安徽卓恰建筑科技有限公司_202322417695.0

相关技术

一种皮带机料仓缓冲装置_唐山天和环保科技股份有限公司_202322478618.6

一种水泥搅拌机防尘装置_安徽卓恰建筑科技有限公司_202322417695.0

一种桥梁位移测量的固定装置_中国建筑第八工程局有限公司_202322544229.9

一种8PIN显示屏灯珠结构_山西高科华兴电子科技有限公司_202322597057.1

一种提高密封性能的轴承_杭州星淼机械有限公司_202322592333.5

一种机制砂破碎设备_河北雄安安好信息科技有限公司_202322563163.8

一种模块化宠物出行箱_上海一吞文化创意有限公司_202322437304.1

一种熔体滤芯圆周端面焊接装置_河南省菲优特过滤设备有限公司_202322606165.0

一种粗粒土现场双环法注水试验装置_贵州省公路开发集团有限公司_202322619078.9

一种新型船舶热交换器_南通海利源船舶设备工程有限公司_202322457448.3

一种组合式控制柜装置_合利兴业自动化设备河北有限公司_202322563005.2

一种面膜膜袋压爆检测机构_苏州安特化妆品股份有限公司_202322566136.6

模型相关技术

现实世界交通模型_高通股份有限公司_202080027657.0

模型玩具和烹饪玩具_永福有限公司_202311409209.9

模型玩具和烹饪玩具_永福有限公司_202311406777.3

基于模型误差在线调整约束的模型预测控制方法_上海交通大学_202211273574.7

人像抠图模型训练方法、人像抠图模型应用方法和装置_厦门亿联网络技术股份有限公司_202410053351.2

一种人工模型转换为语义模型的方法_泰瑞数创科技(北京)股份有限公司_202311138209.X

一种基于模型参数变化幅度的联邦学习模型压缩方法_桂林电子科技大学_202410166562.7

模型训练数据获取方法、模型训练方法和装置_上海朋熙半导体有限公司_202110799060.4

三维模型识别方法_佛山显扬科技有限公司_202010954780.9

模型训练方法及装置_马上消费金融股份有限公司_202311017099.1

ICD相关技术

一种基于临床文本树结构的ICD自动编码方法_兰州理工大学_202311852182.0

一种基于预训练语言模型的ICD自动编码方法_中南大学_202410165651.X

水平井连续封隔体与ICD组合控水数值模拟方法和系统_中海石油(中国)有限公司_202311714210.2

一种基于航电联试环境的1553B总线ICD反求系统及方法_国营芜湖机械厂_202311427860.9

一种ICD自动编码预测方法_重庆邮电大学_202311562028.X

基于ICD诊断数据的医疗信息处理系统及其方法、存储介质_广东省第二人民医院(广东省卫生应急医院)_202311309047.1

一种基于图注意力的医疗文本自动ICD编码方法及系统_北京工业大学_202311550788.9

基于光热ICD诱导联合多糖的抗肿瘤疫苗的制备方法_北京中医药大学_202311546624.9

一种基于深度学习和知识图谱的ICD智能编码的方法_北京雅丁信息技术有限公司_202111149440.X

一种Navβ2-ICD低表达转基因鼠模型的构建方法及其应用_昆明医科大学_202210659728.X

语言相关技术

C语言转换Java语言的数据处理方法、装置及设备_上海浦东发展银行股份有限公司_202110812055.2

语言康复训练装置及方法_苏州市立医院_202210352190.8

一种基于大语言模型的问答系统_北京易华录信息技术股份有限公司_202311818708.3

用于大语言模型的数据知识提取方法_卓世智星(成都)科技有限公司_202410186621.7

用于自然语言代码搜索的系统和方法_硕动力公司_202280062215.9

车辆内语言处理方法、装置、设备及车辆_北京罗克维尔斯科技有限公司_202211348784.8

一种基于大语言模型的个性化内容推荐方法及系统_中外运创新科技有限公司_202410339236.1

一种结构化查询语言生成方法及装置_广东金赋科技股份有限公司_202311829606.1

一种适用于低代码产品的表达式语言设计方法_杭州指令集智能科技有限公司_202410103523.2

一种基于大语言模型的电力运维系统及方法_国网山东省电力公司莱芜供电公司_202410019027.9

龙图腾网&IPTOP

【发明授权】一种基于预训练语言模型的ICD自动编码方法_中南大学_202410165651.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务