首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于论元子图提示生成与引导的篇章级多事件抽取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江大学

摘要:本发明公开了一种基于论元子图提示生成与引导的篇章级多事件抽取方法。本发明使用篇章级长文本编码器,以获取完备的文本特征,可以同时利用篇章级信息和句子级信息。通过多元论元关系抽取生成的事件草图来实现多事件的指代和定位,使用基于提示范式的预训练模型方法进行事件槽填充来实现论元的分类,从而提升多事件抽取准确率。该方法无需使用触发词,降低了对于数据集的标注负担。

主权项:1.一种基于论元子图提示生成与引导的篇章级多事件抽取方法,其特征在于,包括以下步骤:S1:对输入文本进行候选论元的抽取;S2:抽取输入文本中包含的事件草图;所述的步骤S2,包括如下步骤:S21:判断候选论元之间两两的关系,将关系判断建模为多标签分类问题,关系类别等于事件类别加上额外的一类“阈值类”;S22:使用已经得到的所有候选论元和其中的关系构建全局候选论元关系图;全局候选论元关系图表示为无向图G=V,E,其中V表示顶点集合,|V|=Ne,每个点vi是已经抽取出的候选论元;E代表边的集合,每一条边vi,vj∈E,i,j≤Ne,i≠j代表vi与vj之间有关系,关系的类别是Rvi,vj;S23:在全局论元关系图上抽取子图;S24:根据抽取出来的子图构建事件草图,所有得到的事件草图表示为其中每个事件草图si的事件类型是ti,也就是子图中的边的类型;事件草图si中包含的论元后选集合以表示为也就是候选论元子图中所有顶点构成的集合;所述的步骤S21,包括如下步骤:S211:对于输入的文本序列使用Longformer编码器进行编码,得到中间向量HS: S212:将候选论元ei包含的提及的序列位置表示为代表开始位置,代表结束位置;使用平均池化的方式聚合形成该提及的表示向量 S213:通过计算候选论元ei所有提及的表示向量的平均池化值,计算每个候选论元的表示向量 S214:依次选择两个不相同的候选论元ei和ej,通过一个线性层linear和一个非线性层tanh转换成隐藏向量和 其中Wi和Wj是可训练参数;S215:通过双线性映射bilinear计算关系类别r的概率Pr,其中σ表示softmax函数,Wr和br是可训练参数: S216:使用如下的自适应动态阈值损失函数进行训练: Ltotal=L1+L2其中正类构成的关系集合为CT,负类构成的关系集合为CN;阈值类的符号是Th;在L1中,r属于正类,r‘属于正类与阈值类,Pr表示r类别的概率,Pr′表示r‘类别的概率;在L2中,r‘属于负类和阈值类,Pr′表示r‘类别的概率,PTH表示阈值类的概率;L1损失优化正类的概率大于阈值类,L2损失使得阈值类的损失大于负类;最终的损失Ltotal是L1和L2的总和;S217:在预测的时候,通过判断每个关系类别的概率是否大于该样例预测的阈值类的概率,来得到该对候选论元是否具有该类别的关系,其中r表示某一类别,Rel表示候选论元ei和ej之间的关系:ifPrei,ejPThei,ej,thenRelei,ej=r;所述的步骤S23,包括如下步骤:S231:找到G中所有的大小为k的完全子图k-cliques={c1,c2,...,cn};S232:将k-cliques的每个完全子图定义为一个新顶点,当每两个新顶点之间包含的相同的原始顶点的数量大于等于k-1时,赋予这两个新顶点一条边,由此组成一张新图Gnew,之后会在新图上继续分析;S233:找到Gnew中所有的完全子图;S234:每个完全子图中包含的所有原始顶点构成了一个子图,也就是最终要抽取的候选论元子图;S3:基于事件草图构建论元子图提示,在论元子图提示引导下填充事件槽,形成事件记录;所述的步骤S3,包括如下步骤:S31:对于事件草图si,构建相应的事件提示模板,构建方法如下:“在[事件类型]中,[论元角色1]是[ans_slot_1],[论元角色2]是[ans_slot_2],…”,其中“[事件类型]”是该事件草图的类型ti,“[论元角色1]”和“[论元角色2]”是该事件类型下预定义的论元角色,“[ans_slot_1]”和“[ans_slot_2]”是答案槽,由一个或多个预定义的标识符组成;S32:构建事件草图模板;对于事件草图中包含的候选论元,将其使用如下方式转化成文本序列:“[候选论元1][RD][候选论元2][RD][候选论元3]…”,其中“[候选论元1]”和“[候选论元2]”是事件草图中抽取出的候选论元“[RD]”是特定的分隔符,由一个或多个预定义的标识符组成;S33:将S31中的事件提示模板和S32中得到的事件草图模板拼接起来,加上前缀“[CLS]”,并使用“[SEP]”间隔开,组成论元子图提示;S34:填充事件槽;所述的步骤S34,包括如下步骤:S341:将S33中得到的论元子图提示与文本拼接起来,使用“[SEP]”作为间隔符,输入文本表示为S342:经过longformer编码后,产生了中间向量HT: S343:S1得到的候选论元提及在新文本序列的事件草图和原始文本部分的位置表示为区间;通过对一个候选论元提及包含的所有元素的中间向量的平均池化来得到候选论元提及的表示向量 S344:通过对候选论元的全部提及的表示向量进行平均池化,得到该候选论元的表示向量 S345:初始化一个向量htNULL来代表答案槽不填充任何论元的情况;htNULL的维度与相同,其向量参数通过训练不断更新,从而学习到“NULL”含义的表示向量;将htNULL拼接在论元候选表示向量之后得到答案候选,表示为其中Ne是候选论元的个数,当q=Ne+1时,否则,S346:通过对组成某个答案槽的所有特殊占位符的中间向量进行平均池化,得到该答案槽位的表示向量其中表示基于事件草图si的样例的第j个答案槽,计算公式如下: S347:对于每个答案槽,在所有的答案候选向量中选择最适合的进行填充,根据如下公式进行计算每个候选答案的概率,其中Wk、Wp和Wu是可训练参数,σ代表softmax函数: S348:通过交叉熵进行损失函数计算,是真实标签: S349:在预测的时候,对于某个选择所有答案候选中概率最大的一个: 由公式得第q个答案候选就是应该填入该事件槽的答案;当此答案是候选论元时,直接填入论元角色槽内,如果是“NULL”,则表示该论元角色槽应该保持空缺;S4:设置迭代次数,将S3得到的事件记录转化成新的事件草图,迭代重复S3的步骤,得到矫正后的最终事件记录。

全文数据:

权利要求:

百度查询: 浙江大学 一种基于论元子图提示生成与引导的篇章级多事件抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。