首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于BiLSTM结合全局指针的重叠关系抽取系统 

申请/专利权人:重庆邮电大学

申请日:2022-05-27

公开(公告)日:2024-06-28

公开(公告)号:CN115034221B

主分类号:G06F40/295

分类号:G06F40/295;G06F40/211;G06F16/35;G06N3/0442;G06N3/045;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2022.09.30#实质审查的生效;2022.09.09#公开

摘要:本发明涉及一种基于BiLSTM结合全局指针的重叠关系抽取系统,属于计算机技术领域。该系统包括依次连接的共享的Bert编码器、关系类型提取器、头实体提取器和尾实体提取器;所述Bert编码器通过所有层中联合调节左右上下文来预训练来自未标记文本的深层双向表示;设置的输出层,对预训练的BERT模型进行调整;采用预训练模型bert编码文本信息,具有丰富的文本信息;在实体提取模块,本发明提出了利用关系类型和多头注意力结合来引导实体提取,可以充分利用关系类型外部知识,避免隔离关系和实体之间的联系,并且通过多头注意力来给重要信息分配更高的注意力得分。

主权项:1.基于BiLSTM结合全局指针的重叠关系抽取系统,其特征在于:该系统包括依次连接的共享的Bert编码器、关系类型提取器、头实体提取器和尾实体提取器;所述Bert编码器通过所有层中联合调节左右上下文来预训练来自未标记文本的深层双向表示;设置的输出层,对预训练的BERT模型进行调整;采用预训练模型bert编码文本信息,具有丰富的文本信息;所述关系类型提取器基于Bert编码后,采用输出最后一层的CLS表示作为句子的表示,经过池化操作,在全连接层操作后,通过sigmoid函数来作多标签分类,通过设置阈值来确定句子中所存在的关系类型;关系类型提取器通过优化如下概率来检测关系r: 其中是第i个关系的真实标签,是指第i个关系存在的概率,K表示总的关系类型数,X表示文本输入;所述头实体提取器将Bert输出的token向量表示作为实体提取器的输入,通过BiLSTM提取长距离的特征,再通过结合关系类型向量,进行多头注意力得分计算,得到不同词语中的不同重要程度得分,最后通过计算得到一个全局矩阵得分,通过全局矩阵得分来整体获得头实体所在位置;所述尾实体提取器在获取头实体位置之后,将头实体向量表示和位置信息嵌入到BiLSTM之后,经过和头实体提取器操作,得到尾实体所在的位置;所述关系类型提取器中,给定一组预定义的关系集合R={r1,r2,r3,r4…,rk},k是R的大小,通过对于Bert的池化操作得到的向量表示作为关系类型提取器的输入,经过线性层和sigmoid激活函数,得到关系的概率分布,如公式3所示: 其中h'0是Bert层池化操作后的向量表示,设置阈值δ,当Pirδ时,表示该句子文本存在第i种关系;所述头实体提取器中,将Bert的token输出,作为实体提取器的输入,通过BiLSTM编码器提取长距离依赖特征,如公式4所示: 获得BiLSTM输出后,将与关系向量表示Vir进行拼接,再经过多头注意力机制得到更细粒度的词语的重点信息得分,如公式5所示: 接着通过两个全连接层和计算全局得分机制获得矩阵得分,将得分最高的所在位置的m,n取出即是实体在句子中所在位置;计算如公式6~8所示: 所述尾实体提取器中,在获得头实体向量表示后,与头实体提取器的输入进行拼接,经过公式9~13所示: 最后将关系提取模块采用BCEWithLogitsLoss方法进行损失计算,实体提取模块采用BCELoss进行损失计算,经过模型训练和预测后,获得subject,relation,object三元组形式;采用部分匹配和精确匹配两个评价指标,其中部分匹配指预测的实体复制最后一个单词去测试,则为部分匹配;精确匹配是指完整实体名都正确时,为精确匹配;其中采用精确率、召回率、F1值来评价结果,计算如公式14~16所示: 其中,TP表示将正类预测为正类的数量,FN表示将正类预测为负类的数目,FP表示将负类预测为正类数的数目。

全文数据:

权利要求:

百度查询: 重庆邮电大学 基于BiLSTM结合全局指针的重叠关系抽取系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。