一种基于论元子图提示生成与引导的篇章级多事件抽取方法

导航：龙图腾网> 最新专利技术> 一种基于论元子图提示生成与引导的篇章级多事件抽取方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江大学

摘要：本发明公开了一种基于论元子图提示生成与引导的篇章级多事件抽取方法。本发明使用篇章级长文本编码器，以获取完备的文本特征，可以同时利用篇章级信息和句子级信息。通过多元论元关系抽取生成的事件草图来实现多事件的指代和定位，使用基于提示范式的预训练模型方法进行事件槽填充来实现论元的分类，从而提升多事件抽取准确率。该方法无需使用触发词，降低了对于数据集的标注负担。

主权项：1.一种基于论元子图提示生成与引导的篇章级多事件抽取方法，其特征在于，包括以下步骤：S1：对输入文本进行候选论元的抽取；S2：抽取输入文本中包含的事件草图；所述的步骤S2，包括如下步骤：S21：判断候选论元之间两两的关系，将关系判断建模为多标签分类问题，关系类别等于事件类别加上额外的一类“阈值类”；S22：使用已经得到的所有候选论元和其中的关系构建全局候选论元关系图；全局候选论元关系图表示为无向图G＝V，E，其中V表示顶点集合，|V|＝Ne，每个点vi是已经抽取出的候选论元；E代表边的集合，每一条边vi，vj∈E，i，j≤Ne，i≠j代表vi与vj之间有关系，关系的类别是Rvi，vj；S23：在全局论元关系图上抽取子图；S24：根据抽取出来的子图构建事件草图，所有得到的事件草图表示为其中每个事件草图si的事件类型是ti，也就是子图中的边的类型；事件草图si中包含的论元后选集合以表示为也就是候选论元子图中所有顶点构成的集合；所述的步骤S21，包括如下步骤：S211：对于输入的文本序列使用Longformer编码器进行编码，得到中间向量HS： S212：将候选论元ei包含的提及的序列位置表示为代表开始位置，代表结束位置；使用平均池化的方式聚合形成该提及的表示向量 S213：通过计算候选论元ei所有提及的表示向量的平均池化值，计算每个候选论元的表示向量 S214：依次选择两个不相同的候选论元ei和ej，通过一个线性层linear和一个非线性层tanh转换成隐藏向量和其中Wi和Wj是可训练参数；S215：通过双线性映射bilinear计算关系类别r的概率Pr，其中σ表示softmax函数，Wr和br是可训练参数： S216：使用如下的自适应动态阈值损失函数进行训练： Ltotal＝L1+L2其中正类构成的关系集合为CT，负类构成的关系集合为CN；阈值类的符号是Th；在L1中，r属于正类，r‘属于正类与阈值类，Pr表示r类别的概率，Pr′表示r‘类别的概率；在L2中，r‘属于负类和阈值类，Pr′表示r‘类别的概率，PTH表示阈值类的概率；L1损失优化正类的概率大于阈值类，L2损失使得阈值类的损失大于负类；最终的损失Ltotal是L1和L2的总和；S217：在预测的时候，通过判断每个关系类别的概率是否大于该样例预测的阈值类的概率，来得到该对候选论元是否具有该类别的关系，其中r表示某一类别，Rel表示候选论元ei和ej之间的关系：ifPrei，ejPThei，ej，thenRelei，ej＝r；所述的步骤S23，包括如下步骤：S231：找到G中所有的大小为k的完全子图k-cliques＝{c1，c2，...，cn}；S232：将k-cliques的每个完全子图定义为一个新顶点，当每两个新顶点之间包含的相同的原始顶点的数量大于等于k-1时，赋予这两个新顶点一条边，由此组成一张新图Gnew，之后会在新图上继续分析；S233：找到Gnew中所有的完全子图；S234：每个完全子图中包含的所有原始顶点构成了一个子图，也就是最终要抽取的候选论元子图；S3：基于事件草图构建论元子图提示，在论元子图提示引导下填充事件槽，形成事件记录；所述的步骤S3，包括如下步骤：S31：对于事件草图si，构建相应的事件提示模板，构建方法如下：“在[事件类型]中，[论元角色1]是[ans_slot_1]，[论元角色2]是[ans_slot_2]，…”，其中“[事件类型]”是该事件草图的类型ti，“[论元角色1]”和“[论元角色2]”是该事件类型下预定义的论元角色，“[ans_slot_1]”和“[ans_slot_2]”是答案槽，由一个或多个预定义的标识符组成；S32：构建事件草图模板；对于事件草图中包含的候选论元，将其使用如下方式转化成文本序列：“[候选论元1][RD][候选论元2][RD][候选论元3]…”，其中“[候选论元1]”和“[候选论元2]”是事件草图中抽取出的候选论元“[RD]”是特定的分隔符，由一个或多个预定义的标识符组成；S33：将S31中的事件提示模板和S32中得到的事件草图模板拼接起来，加上前缀“[CLS]”，并使用“[SEP]”间隔开，组成论元子图提示；S34：填充事件槽；所述的步骤S34，包括如下步骤：S341：将S33中得到的论元子图提示与文本拼接起来，使用“[SEP]”作为间隔符，输入文本表示为S342：经过longformer编码后，产生了中间向量HT： S343：S1得到的候选论元提及在新文本序列的事件草图和原始文本部分的位置表示为区间；通过对一个候选论元提及包含的所有元素的中间向量的平均池化来得到候选论元提及的表示向量 S344：通过对候选论元的全部提及的表示向量进行平均池化，得到该候选论元的表示向量 S345：初始化一个向量htNULL来代表答案槽不填充任何论元的情况；htNULL的维度与相同，其向量参数通过训练不断更新，从而学习到“NULL”含义的表示向量；将htNULL拼接在论元候选表示向量之后得到答案候选，表示为其中Ne是候选论元的个数，当q＝Ne+1时，否则，S346：通过对组成某个答案槽的所有特殊占位符的中间向量进行平均池化，得到该答案槽位的表示向量其中表示基于事件草图si的样例的第j个答案槽，计算公式如下： S347：对于每个答案槽，在所有的答案候选向量中选择最适合的进行填充，根据如下公式进行计算每个候选答案的概率，其中Wk、Wp和Wu是可训练参数，σ代表softmax函数： S348：通过交叉熵进行损失函数计算，是真实标签： S349：在预测的时候，对于某个选择所有答案候选中概率最大的一个：由公式得第q个答案候选就是应该填入该事件槽的答案；当此答案是候选论元时，直接填入论元角色槽内，如果是“NULL”，则表示该论元角色槽应该保持空缺；S4：设置迭代次数，将S3得到的事件记录转化成新的事件草图，迭代重复S3的步骤，得到矫正后的最终事件记录。

全文数据：

权利要求：

百度查询：浙江大学一种基于论元子图提示生成与引导的篇章级多事件抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种高效的柔性钙钛矿太阳能电池封装方法

下一篇：一种多自由度解耦的波浪能发电装置及其工作方法

相关技术

一种高效的柔性钙钛矿太阳能电池封装方法

一种多自由度解耦的波浪能发电装置及其工作方法

一种超声波诊断检查防护装置

一种页面构建方法和系统

用于车辆空调系统的控制方法、装置、程序产品及介质

一种盾构壁后注浆浆液及其制备方法

电池单体、储能设备及用电装置

一种基于Wollaston棱镜的同步移相干涉装置及方法

恒湿机

写请求的处理方法、装置、设备和介质

一种整车软件管理系统及方法

一种接地线缆开关状态检测装置和检测方法

引导相关技术

一种吊绳防护引导装置_山东欣凰特种线缆有限公司_202420200853.9

经隔膜穿刺引导心脏修复_皇家飞利浦有限公司_201980012156.2

输尿管引导扩张球囊导管_周萃星_202322528322.0

一种引导轮轮毂加工钻孔装置_湖南鑫锻机械有限公司_202410895613.X

一种穿刺针引导器_北京奥达智声医疗科技有限公司_202323567751.5

一种放射治疗引导方法和系统_上海联影医疗科技股份有限公司_202210642270.7

一种文本引导的图像分割方法_四川大学_202410853324.3

一种自动引导车及控制系统_中国联合网络通信集团有限公司_202420290588.8

一种激光焊接引导定位系统_武汉工程大学_202323591496.8

一种球囊导引导管_苏州徕瑞医疗技术有限公司_202311450344.8

生成相关技术

轨道生成装置_三菱电机株式会社_202380018918.6

气溶胶生成装置_深圳市合元科技有限公司_202323518750.1

气溶胶生成系统_深圳市合元科技有限公司_201910711181.1

气溶胶生成装置_深圳市合元科技有限公司_202323543129.0

气溶胶生成装置_深圳市合元科技有限公司_202323093499.9

气溶胶生成装置_深圳市合元科技有限公司_202323662257.7

数据生成设备和程序_日本电信电话株式会社_202180104085.6

数据生成模型获取方法_珠海金山数字网络科技有限公司_202410682552.9

图像生成模型训练方法和装置、图像生成方法和装置_上海游境网络科技有限公司_202011396520.0

道路运输成本优化预算综合生成系统及生成方法_江苏迪途信息技术发展有限公司_202410657270.3

篇章相关技术

基于依存句法预训练模型的篇章级关系抽取方法及系统_大连海事大学_202210045155.1

一种基于论元子图提示生成与引导的篇章级多事件抽取方法_浙江大学_202210087670.6

篇章要点检测方法、装置、设备及存储介质_科大讯飞股份有限公司_202010776952.8

一种篇章级事件可信度识别方法、装置及存储介质_苏州大学_202211282395.X

一种用于隐式篇章关系分析的显式数据筛选方法及系统_北京理工大学_202110872310.2

一种篇章去噪方法、装置、系统及存储介质_北京国双科技有限公司_201910943531.7

一种基于大语言模型思维链的少样本篇章级事件抽取方法_昆明理工大学_202410596184.6

一种段落大意引导的汉语篇章结构分析方法_华东交通大学_202410566175.2

一种基于篇章事件汇聚模型的预案指令构建方法和装置_国网智能电网研究院有限公司_202410582564.4

一种基于多粒度实体异构图的篇章级事件抽取方法及装置_山西大学_202210348614.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于论元子图提示生成与引导的篇章级多事件抽取方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务