首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于词典增强和相互注意力的中文医疗命名实体识别方法 

申请/专利权人:浙江工业大学

申请日:2024-03-21

公开(公告)日:2024-06-25

公开(公告)号:CN118246451A

主分类号:G06F40/295

分类号:G06F40/295;G06F40/242;G16H40/20;G06N3/045

优先权:

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:一种基于词典增强和相互注意力的中文医疗命名实体识别方法,对原始医疗文本数据进行预处理,生成医疗文本数据集,将一元字符和二元字符映射到高维向量空间;使用医疗细分领域专有名词和短语构建一个医疗领域外部词典,使用医疗文本在词典中匹配得到医疗词汇,并将词汇分配到四个词集中,对词汇进行向量嵌入;将各词集中的词汇向量进行加权求和得到词集向量;计算字符嵌入和词集嵌入之间的相互注意力得分,通过时序网络获得医疗文本的上下文信息;通过计算各字符的标签概率,得到中文医疗命名实体识别结果。本发明利用了医疗领域的词典,考虑了词汇和字符之间的动态关系,提高了中文医疗领域命名实体识别的效率和准确率。

主权项:1.一种基于词典增强和相互注意力的中文医疗命名实体识别方法,其特征在于,所述方法包括以下步骤:步骤1:对医疗文本数据进行预处理,生成由汉字、英文和数字字符构成的医疗文本数据集{S1,S2,…,Si,SN},其中Si={ci1,ci2,…,cij,…,cin}表示第i个医疗文本,N表示医疗文本数量,cij表示医疗文本Si中的第j个字符,in表示Si中的字符数量;使用医疗细分领域专有名词和短语构建一个医疗领域外部词典,定义医疗命名实体类别标签集合τ={label1,label2,…,labelt,…,labelm},其中m是标签数量;步骤2:从医疗文本数据集中任意选择第i个医疗文本Si作为输入文本,文本中的每个字符作为一元字符,每个字符与其相邻字符组合作为二元字符;使用Word2Vec算法将医疗文本Si中所有一元和二元字符分别映射到一个d维词向量空间中作为一元和二元字符嵌入向量;任意选取Si中的第j个字符,将第j个字符对应的一元和二元字符嵌入向量拼接作为该字符的表征向量xij=[eccij;ebcij,cij+1],其中eccij和ebcij,cij+1分别表示用Word2Vec算法获取一元和二元医疗文本字符的嵌入向量;遍历医疗文本Si中所有字符,计算所有字符的表征向量;步骤3:在医疗文本Si中任选一个医疗字符cij,在医疗领域外部词典中检索出当前医疗文本字符cij匹配到的所有词汇,并依据医疗字符在其对应词汇中所处位置将词汇分配到当前医疗字符对应的四个词集中,即Bcij、Mcij、Ecij、Scij,其中B表示字符处于对应词汇首位,M表示字符处于词汇中间位置,E表示字符处于词汇末位,S表示当前字符独立成词,同时将各词集中的词汇依据由短到长的顺序排序;步骤4:使用Word2Vec算法将当前医疗字符cij所对应的四个词集中的词汇映射到d维向量空间,并对M词集中所有的词汇向量进行加权求和得到各词集的表征向量: 其中,表示字符cij的M词集表征向量,ewMcij表示使用Word2Vec算法获取字符cij的M词集中所有词汇的嵌入向量,WM表示M词集中不同位置词汇的权重;使用同样的方式分别计算出B、E、S词集的向量步骤5:计算当前医疗字符cij对应的查询向量:Qij=xijWq其中Wq表示查询向量的权重矩阵;步骤6:计算当前医疗字符cij对应的B、M、E、S词集的键向量: 和值向量: 其中,Wk和Wv分别为键、值向量的权重矩阵;步骤7:计算当前医疗文本字符cij和对应B、M、E、S词集间的注意力分数:Aij=Qij+uΤKij其中,u是偏置项,Τ是转置操作;步骤8:计算当前医疗文本字符cij的最终表征向量:θij=softmaxmaskAijVij其中,mask是掩码函数;遍历医疗文本Si中所有字符,重复执行步骤3~步骤8,计算医疗文本Si中的所有字符融合词汇信息后的表征向量;步骤9:按照j从1到in的顺序,使用双向LSTM网络计算当前医疗文本字符cij的上下文信息: 其中 hij=oij*tanhcellij其中,W表示可学习的权重参数,b表示偏置项,hij表示医疗文本字符cij的隐藏状态,σ是sigmoid激活函数,iij、fij、oij分别表示输入门、遗忘门和输出门;步骤10:按照j从1到in的顺序,计算cij的预测标签为labelt的概率: 其中,labelt是从医疗命名实体类别集合τ任选的一个标签,ftyt-1,hij=μlsllabelt,hij,j+γkukyij-1,labelt,hij,jwt是可调参数,sllabelt,hij,j是状态特征函数,ukyij-1,labelt,hij,j是状态转移函数,μl和γk是可调参数;遍历计算实体类别集合τ中所有标签的概率,选取概率最大的标签作为cij的预测标签yij;步骤11:计算损失 其中n表示医疗文本序列的长度,表示字符cij的真实标签;步骤12:利用随机梯度下降方法更新模型参数,重复步骤2~步骤12,直至Loss小于指定的最小损失值后结束计算;得到医疗文本数据集中所有字符的预测标签,将标签依据BMES规则组合成医疗命名实体,作为识别结果。

全文数据:

权利要求:

百度查询: 浙江工业大学 基于词典增强和相互注意力的中文医疗命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。