首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向临床问诊记录的疾病预测方法与装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东南大学

摘要:本发明公开了一种面向临床问诊记录的疾病预测方法与装置,方法包括以下步骤:临床缩略语的自动识别和资料采集;数据预处理;模型训练;模型测试与疾病预测。本发明借助注意力机制对重要内容的关注,构建了基于分层的双向GRU神经网络训练方法,将人借助外部资料理解缩略语本身含义的方式应用到疾病预测方法中,进而保证预测方法的准确性和可解释性。本发明打破了以往只关注源临床文本的方式,设计了自动识别缩略语和收集资料的装置,以扩展缩略语的知识信息,有效地提高缩略语的信息含量,使临床问诊记录整体的信息得到丰富,进一步提高疾病预测的准确性。

主权项:1.一种面向临床问诊记录的疾病预测方法,其特征在于,包括如下步骤:步骤1:临床缩略语的自动识别和资料采集通过专业的缩略语词典和自建缩略语资料库自动识别临床问诊记录中的缩略语,建立对应的缩略语标记列表,之后通过自动采集装置从专业网站、专业缩略语词典、临床资料库中搜索收集相关解释资料;步骤2:数据预处理对数据集中每一个临床问诊记录进行预处理,将预处理后的数据进行分割形成训练集、验证集和测试集;步骤3:模型训练将步骤2预处理的模型输入数据送入BERT模型进行词向量编码,得到临床问诊记录和缩略语拓展资料的单词向量表示,然后将临床问诊记录的单词向量表示输入进双向GRU神经网络对词向量进行嵌入,获得临床问诊记录的上下文语义表示;同时,对缩略语的拓展资料进行相同的处理,得到缩略语拓展资料的上下文语义表示;然后使用步骤2的缩略语位置标记取出临床问诊记录上下文语义向量中的缩略语上下文语义向量,利用注意力机制对缩略语上下文语义向量和对应拓展资料的上下文语义表示进行加权计算,得到融入拓展资料信息的缩略语特征向量,再通过设置自学习的参数矩阵自动学习缩略语特征向量对预测结果的影响程度;之后将融合拓展资料后的特征嵌入表示替换缩略语上下文语义向量,接着将临床文本语义向量经过双向GRU神经网络获得临床问诊记录的特征向量序列,并再次利用Attention机制将文本特征向量与预测结果做注意力加权计算,通过全连接神经网络和激活函数得到疾病预测结果,模型的训练是通过损失函数损失计算反向传递更新各权重参数,得到训练好的模型;具体包括如下子步骤:子步骤3-1,构建临床问诊记录编码层一个长度为n的临床记录文本,其输入序列表示为x=x1,x2,...,xn,将其输入进BERT模型得到临床记录文本词向量h=h1,h2,...,hn,通过双向GRU神经网络之后,得到临床记录的上下文语义表示向量Hgru,并使用步骤2的缩略语位置标记从Hgru中取出缩略语的上下文语义向量Hgru-abb;上述通过双向GRU融入临床问诊记录上下文信息的过程公式为: 子步骤3-2,获得缩略语拓展资料的上下文语义表示采用另一个双层GRU神经网络编码器对临床缩略语拓展资料进行嵌入表示,和步骤3-1公式相同,得到拓展资料Hdata;子步骤3-3,结合注意力机制对缩略语拓展资料进行提取借助注意力机制计算缩略语上下文语义向量和缩略语,来建模上述缩略语拓展资料和缩略语上下文语义向量相互影响的关系;其中注意力机制在本步骤中的计算方式如下:Hattr=softmax[WqHgru-abbWkHdataT]WvHdata4临床问诊记录的缩略语上下文语义向量作为Query查询向量Wq,将拓展资料向量作为待匹配的[key,value],即被查询信息与其他信息相关性的向量Wk和被查询信息的向量Wv;通过相似性计算得到有关临床问诊记录上下文的缩略语上下文语义向量和缩略语拓展资料向量的相关性,用softmax将相关性数值归一化为影响因子参数,最后通过该参数将两者信息加权计算进行融合,即融合拓展资料信息的缩略语向量化表示Hattr;子步骤3-4,对融入了拓展资料的缩略语向量化表示Hattr和原缩略语词上下文语义向量Hgru-abb进行融合,得到融合拓展资料后的特征嵌入表示Habb,对应的公式为:Habb=WaHgru-abb+WbHattr5其中,Wa表示原缩略语向量表示Hgru-abb的对预测结果的影响程度,Wb表示拓展资料的向量化表示Hattr对预测结果的影响程度,两者都是可学习的参数矩阵;子步骤3-5,最后将融合拓展资料后的特征嵌入表示Habb替换原有的临床问诊记录Hgru的缩略语上下文语义向量,然后将临床问诊记录的上下文语义表示通过双向GRU神经网络,得到融合拓展资料和问诊记录上下文的特征向量序列,再次通过注意力机制加权计算得到用于预测的结果序列,并通过全连接神经网络和激活函数得到疾病预测结果;子步骤3-6,训练损失采用随机初始化的方式对所有的参数进行初始化,使用Adam优化器加快模型的收敛速度,设置学习率会随训练步数的增加而逐渐衰减,使用交叉熵作为模型的损失函数,同时模型训练结束时保存在验证集上表现最好的模型;步骤4:疾病预测与模型测试根据训练所得到的最佳模型,对待测试数据集进行预测检验:先对测试文本进行预处理,然后根据步骤2构建模型的输入形式,最后根据步骤3中训练好的疾病预测模型,得到疾病预测结果。

全文数据:

权利要求:

百度查询: 东南大学 一种面向临床问诊记录的疾病预测方法与装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。