买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京航空航天大学
摘要:本发明公开了一种基于混合格自注意力网络的命名实体识别方法,包括:S1,将字词对表示的句子特征向量编码为一个维度固定的矩阵,得到混合格结构的字词向量表示;构造自注意力网络以捕获该向量中词向量对字向量的影响,增强每个字向量的特征表示;在BERT的Embedding层融合词特征,通过微调学习过程,学习得到更好的字向量表示;依据BiLSTM‑CRF网络实现实体识别中的实体序列标注任务和解码过程,通过该网络完成对融合后字特征的建模,构建完成基于混合格自注意力网络的实体识别模型。本发明能够捕获全局的词汇信息,生成语义丰富的字向量表示,在多个数据集上提升了中文命名实体识别的精度。
主权项:1.一种基于混合格自注意力网络的命名实体识别方法,其特征在于,所述命名实体识别方法包括以下步骤:S1,在词典中查找输入句子中由连续个字组成的词,通过位置交替映射合并成一个单独的多维向量,采用混合字词格编码的方式将字词对表示的句子特征向量编码为一个维度固定的矩阵,得到相应的混合格结构的字词向量表示;S2,基于步骤S1中生成的混合格结构的字词向量,构造相应的自注意力网络以捕获该向量中词向量对字向量的影响,以此来增强每个字向量的特征表示;S3,在BERT的Embedding层融合词特征,通过微调学习过程,学习得到更好的字向量表示;依据BiLSTM-CRF网络实现实体识别中的实体序列标注任务和解码过程,通过该网络完成对融合后字特征的建模,构建完成基于混合格自注意力网络的实体识别模型;S4,在数据集上对基于混合格自注意力网络的实体识别模型进行训练;步骤S1中,采用混合字词格编码的方式将字词对表示的句子特征向量编码为一个维度固定的矩阵,得到相应的混合格结构的字词向量表示的过程包括以下步骤:S11,给定一个句子sc={c1,c2,…,cn},通过加载预训练的BERT权重,得到句子sc的字特征向量表示其中ci表示sc中的第i个字,n表示s的字数长度,eB表示BERT预训练字向量的查找表;S12,给定一个中文词典L,构造Trie字典树,遍历该树的节点,得到每个字所匹配到的词汇;S13,将所有匹配到的词汇按照BMES标记分组,即对于字符ci,词集Bci由以它开头的匹配词组成,集合Mci由ci为其内部字的匹配词组成,集合Eci由以ci结尾的匹配词组成,集合Sci由ci的单字符词组成;句子sc中每个字ci的词集wi表示为:wi={ewBci,ewMci,ewEci,ewSci};其中ew表示预训练的词向量查找表;S14,设置两层可学习的非线性全连接层将wi的维度升至和字向量一致,BERT在微调的时候,对这两层权重进行学习,使预训练的词特征向量映射到BERT的语义特征空间;处理后的词特征向量表示如下: 其中W1∈dc×dc,W1∈dc×dw是可学习的权重矩阵,b1和b2是对应的偏置,dc表示BERT字向量的维度,dw表示预训练词向量的维度;S15,将转换后的词特征向量作为特征融合模型的输入,按照字和词集的对应关系,将每个字-词对特征表示为: S16,将字-词对的特征表示如下: 其中表示向量拼接符;步骤S2中,基于步骤S1中生成的混合格结构的字词向量,构造相应的自注意力网络以捕获该向量中词向量对字向量的影响,以此来增强每个字向量的特征表示的过程包括以下步骤:S21,设计Mixed-lattice自注意力网络来捕获字词特征间的关联,自注意力网络将混合字词编码向量VME和词位置屏蔽矩阵M作为增强网络的输入,通过该自注意力网络对全局的词向量和字向量的建模,使模型学习到词和字间的词义相关性权重,Q、K、V矩阵的计算如下:[Q,K,V]=[WqVME,WkVME,WvVME];其中是可学习的权重矩阵,且de=dc+dw;Q、K、V矩阵分别为查询项矩阵、查询项对应的键项矩阵和待加权平均的值项矩阵;de表示mixed-lattice向量的维度、dc表示字向量的维度、dw词向量的维度;S22,将点积运算作为相似性分数的计算公式: FAtt=SoftmaxSAtt+εMV;其中M是静态的词位置屏蔽矩阵,ε是一个值为无穷小的矩阵,是自注意力网络的输出;其中SAtt表示归一化后的注意力得分、KT表示矩阵K的转置;S23,将词特征信息作为残差加入到BERT预训练字向量中,得到的词汇增强字特征向量为:C′=C+gFAtt;其中表示BERT的预训练字向量特征,函数g*用于移除self-attention网络中的词向量通道来保证C和FAtt向量维度的一致性,得到词汇增强后的字嵌入向量C′;步骤S3中,构建完成基于混合格自注意力网络的实体识别模型的过程包括以下步骤:S31,给定一个长度为n的句子序列sc={c1,c2,…,cn},经过词汇增强后的字向量表示为C′={c′1,c′2,…,c′n},在BERT模型中微调字向量C′,词汇增强后的BERT字嵌入向量表示为:Ei′=Ci′+Esi+Epi;其中Es和Ep分别表示分隔向量和位置向量查找表;i表示长度为n的字符序列sc中的第i个字符;S32,将得到的E′输入到BERT中,每个transformer块的计算公式如下:D=LNHk-1+MHAHk-1;Hk=LNFFND+D;其中Hk表示第k层的隐状态输出,H0=E′表示底层的字向量;LN是层归一化函数;MHA是多头自注意力模块;FFN表示两层的前馈神经网络;D表示多头注意力模块归一化后的输出向量;S33,获得最后一层transformer的隐状态输出向量将输入到一个双向的LSTM网络中,分别从句子的左到右和右到左捕捉语义信息;前向的LSTM网络的隐状态输出表示为后向的LSTM网络的输出为BI-LSTM网络的输出是sequence-labeling层的输出,表示为: 其中hi表示第i个Bi-LSTMs神经元的级联隐状态输出,用来表示ci的字符级上下文语义表示;S34,使用标准的CRF层来预测NER标签,给定网络最后一层的隐状态输出向量H={h1,h2,…,hn},假如y={y1,y2,…,yn}表示标签序列,对于一个句子s={s1,s2,…,sn},其对应的标签序列的概率定义如下: 其中y′表示所有标签序列中任意一个标签序列;表示对应于yi的网络中可学习的权重参数;表示对应于yi-1和yi之间的偏置量;分别表示在任意可能的标签y′下的模型权重参数和偏置量;S35,将负对数似然损失作为模型的损失函数,表示为:
全文数据:
权利要求:
百度查询: 南京航空航天大学 一种基于混合格自注意力网络的命名实体识别方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。