首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种生物医学嵌套命名实体识别方法_安徽理工大学_202111553048.1 

申请/专利权人:安徽理工大学

申请日:2021-12-17

公开(公告)日:2024-06-21

公开(公告)号:CN114239585B

主分类号:G06F40/295

分类号:G06F40/295;G06F40/30;G06F16/35;G06N3/045;G06N3/0442;G06N3/092;G06N3/048

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2022.04.12#实质审查的生效;2022.03.25#公开

摘要:本发明公开了一种生物医学嵌套命名实体识别方法,通过基于字符级向量与字级别向量交互融合并结合多头注意力机制得到信息交互后的字符级特征向量与字级别特征向量的表示,通过基于双向长短期记忆神经网络得到句子上下文信息,再次对获取上下文信息的字符级向量与字级向量交互信息,经过向量加权得到最终的标签序列,根据标签序列得到粗粒度候选区间,经过对粗粒度候选区间的细粒度划分得到所有的嵌套命名实体识别结果。字符级特征与字级别特征的信息交互可以更好的获得字内部的信息,基于注意力机制的语言预处理模型预先生成增强语义的字向量并有利于特征信息之间的相互传递。本发明不仅提高了嵌套命名实体的识别效果,而且提高了识别的速度。

主权项:1.一种生物医学嵌套命名实体识别方法,其特征在于,包括以下步骤:步骤1将用于训练的生物医学数据集进行字符级别和字级别的切分,得到用于训练的生物医学数据集文本切分字符;将用于识别的生物医学数据集进行字符级别和字级别的切分,得到用于识别的生物医学数据集文本切分字符;步骤2对用于训练的数据集文本切分字符和切分字进行标注,得到用于训练的标注数据集,其中,属于命名实体的开始字符或字标注为‘B’,命名实体的内部实体字符或字标注为‘I’,不是实体的字符或字标注为‘O’;步骤3将用于训练的切分字符和切分字向量进行交互并通过多头注意力机制获得增强语义的字符向量和字向量;使用步骤2得到的用于训练的标注文本对基于注意力机制的语言预处理模型进行训练,得到训练好的基于注意力机制的语言预处理模型;基于注意力机制的语言预处理模型包括依次连接的字嵌入层、特征交互层注意力机制层;步骤3.1将步骤2得到的用于训练的标注数据集文本以句为单位送入基于注意力机制和特征交互的语言预处理模型的字嵌入层,得到字符级别特征向量和字级别特征向量的表示,将字符级别特征向量与字级别特征向量进行交互得到更多的字内部信息,交互计算如公式1、2所示: 其中,xw表示字级别特征向量表示,xc表示字符级别特征向量表示;mul表示不同数据之间的信息交换;表示交互后的字级别特征向量表示,表示字符级别特征向量表示;步骤3.2使用注意力机制分别学习字向量中的字符依赖关系以及字符之间的信息交流,使字嵌入向量包含字中所有字与字符的信息;注意力机制层的输出为最终生成新的字符级别与字级别向量,进而完成基于注意力机制的语言预处理模型的训练,注意力机制计算公式如公式3所示: 其中,AttentionQ,K,V表示注意力分数,Q表示查询向量,K表示键向量,V表示值向量,表示键向量维数的平方根,softmax函数为归一化指数函数; 其中,D表示数组,Dt表示数组D的第t个元素,t表示字级别特征元素与或字符级别中的第t个元素,softmaxt的值即为数组中第t个元素的指数与其它所有元素指数和的比值;步骤4使用步骤2得到的用于训练的标注数据集文本对嵌套命名实体识别模型进行训练,得到训练好的嵌套实体识别模型,嵌套实体识别模型包括依次连接的双向长短期记忆网络层、多头注意力层、全连接层网络与softmax层构成的粗粒度候选区间感知层和细粒度划分及类别判断层;步骤4.1使用双向长短期记忆网络层对字向量和字符向量进行双向编码,双向长短期记忆网络包括一个正向长短期记忆网络层和一个反向长短期记忆网络层,正向长短期记忆网络层学习后文特征,反向长短期记忆网络层学习前文特征,从而使生成的向量更好地捕捉前后文语义信息,学习上下文关系;双向长短期记忆网络层是由输入门、遗忘门和输出门组成,字向量长短期记忆网络层计算公式如5-10所示: 其中,σ·是sigmoid激活函数,tanh·是双曲正切函数分别表示输入门、遗忘门和输出门;表示t时刻候选记忆单元向量,表示t时刻记忆单元向量;Ww和Uw表示单元输出的权重矩阵;bw表示偏置向量;⊙表示元素级乘法运算;通过连接前向LSTM和后向LSTM得到句子的隐藏状态其中同理,可以得到句子字符级特征表示经过BiLSTM得到的句子隐藏状态特征表示为:其中步骤4.2隐藏状态的特征信息可以通过强化训练获取深层语义信息,引入softmax激活函数更新不同特征的权重,同时让两个隐藏状态特征向量与权重矩阵进行交互,以达到关注有用的部分,降低不相关信息比重的目的;该过程描述如公式11-12所示: 经过两次交互之后,最终的包含单词语义信息和句子上下文信息的隐藏状态序列表示H={h1,h2,...,hn},每个隐藏单元ht满足公式13: 步骤4.3使用多头注意力层进一步提取多重语义:多头注意力层实质指进行两次以上的注意力头运算,对于通过双向长短期记忆网络层的输出状态,首先通过公式14进行单头注意力计算: 其中,headi表示第i个注意力头计算的结果,i表示总共有i个注意力头,WiQ为生成查询向量的权重参数,WiK为生成键向量的权重参数,WiV为生成值向量的权重参数,为k维度的调节平滑项,softmax为归一化指数函数;最后,拼接这i次的计算结果并做一次线性变换,得到对于每一时刻t通过双向长短期记忆网络层的t时刻网络的输出状态的多头注意力运算结果,如公式15所示:MultiHeadi=Concathead1,head2,...,headiWm15其中,MultiHeadi表示多头注意力层的计算结果,Wm为权重参数;步骤4.4使用全连接层和softmax层得到粗粒度候选区间,采用二进制序列标记给每一个文本标记实数,其中是实体词的被标记为1,非实体词被标记为0;可以用来判断每一个词是否属于某一个或多个实体,以便过滤掉一些不相关的区域,找到属于实体内部词的粗粒度候选区间,进而划分出不同层次的实体词,避免了对不同跨度的不同区间进行是否为实体的判断,减少了计算的时间成本;步骤是:隐藏层特征序列输出经过一个全连接层和sigmoid激活函数得到每个词属于实体内部或实体边界的实体词概率p;句子的粗粒度候选区间感知层使用二元交叉熵函数作为损失函数Lword,公式如16所示:Lword=-[ylogp+1-ylog1-p16其中,y是所判断词的真实标签,p是所判断词为实体词的概率;在模型进行训练时,若输入的句子X={x1,x2,...,xn},且在区间xi,xi+1,...,xj内都是实体,则对应的二元序列标签yi,yi+1,...,yj都为1,不在任何实体中的词被标记为0;句子的粗粒度候选区间感知层在当前批次的损失Lossword公式如17所示: 其中,Lword为粗粒度候选区间感知层的损失函数;wordi表示当前训练批次的第i个词;mx表示当前训练批次词的个数;模型进行训练时在训练集上运用反向传播算法对公式进行最小化达到对模型的优化;步骤4.5对粗粒度候选空间继续划分出不同层的细粒度候选区间,判断是否为实体区间词或单个的实体词,并判断出实体类型;对于每个粗粒度候选区间intervali,j=xi,xi+1,...,xj,xi表示输入文本的第i个词,定义粗粒度候选区间的左边界信息为区间第一个词的句子级信息hi,右边界信息为区间最后一个词的句子级信息hj,整体信息为区间的所有词句子级信息表示的平均值;每个粗粒度候选区间intervali,j向量表示如公式18所示: 其中,hk表示输入句子第k个单词的隐藏状态特征表示;对粗粒度候选区间的细粒度划分采用枚举的方法,其中,细粒度区间的向量表示和粗粒度候选区间向量表示保持一致;随后,细粒度区间的向量表示输入到由全连接层和softmax输出层构成的区域,用来分类该细粒度区间属于哪一种实体类别或者不属于任何实体类别;细粒度区间分类损失函数采用交叉熵损失函数,公式表示如19所示: 其中,yinterval,c表示的是细粒度区间是否属于实体类别c的二元标签,1表示属于,0表示不属于;pinterval,c表示细粒度区间属于实体类别c的概率;实体类别一共有N个;细粒度划分及类别判断层在当前批次上的训练损失公式如20所示: 模型在训练集上的损失Loss为多任务训练损失的加权平均值;公式如21所示: 其中,λ是一项超参数0<λ<1,表示粗粒度候选区间感知层在整个模型损失中的权重;Lword和Linterval分别表示粗粒度候选区间感知层和细粒度划分及类别判断层的损失函数;步骤5识别时,将用于识别的数据集文本切分字符和切分字导入到训练好的基于注意力机制的语言预处理模型中生成字符向量和字向量;将得到的生成字符向量和字向量导入训练好的生物医学嵌套命名实体识别模型中识别文本中的嵌套命名实体。

全文数据:

权利要求:

百度查询: 安徽理工大学 一种生物医学嵌套命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。