首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种文档级事件抽取的候选论元过滤方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京语言大学

摘要:本发明涉及自然语言处理领域,特别是指一种文档级事件抽取的候选论元过滤方法及装置,方法包括:获取待处理的文档;将文档输入到候选论元过滤模型;其中,候选论元过滤模型包括实体识别模块、大模型前导过滤模块、实体表示增强模块、实体异构图构建模块以及结果生成模块;根据文档以及候选论元过滤模型,得到文档的候选论元集合。本发明的候选论元过滤模型通过两次过滤,实现了端到端的:输入一篇文档,输出这篇文档所包含的全部候选论元集合。并通过两次过滤,过滤了实体表示中的无关噪音,提高了实体邻接矩阵的准确性,并最终提高了事件抽取的准确率。

主权项:1.一种文档级事件抽取的候选论元过滤方法,其特征在于,所述方法包括:S1、获取待处理的文档;S2、将所述文档输入到候选论元过滤模型;其中,所述候选论元过滤模型包括实体识别模块、大模型前导过滤模块、实体表示增强模块、实体异构图构建模块以及结果生成模块;S3、根据所述文档以及候选论元过滤模型,得到文档的候选论元集合;所述S3中的根据所述文档以及候选论元过滤模型,得到文档的候选论元集合,包括:S31、将所述文档输入到所述实体识别模块,得到实体表示;S32、将所述实体表示输入到所述大模型前导过滤模块,得到文档复杂度分数;S33、将所述文档复杂度分数输入到所述实体表示增强模块,得到增强后的实体表示;S34、将所述增强后的实体表示输入到所述实体异构图构建模块,得到实体异构图;S35、将所述实体异构图输入到所述结果生成模块,得到文档的候选论元集合;所述S32中的将所述实体表示输入到所述大模型前导过滤模块,得到文档复杂度分数,包括:在获取每个实体的表示之后,引入ChatGPT作为前导模型来进行噪音过滤,其中,过滤的方法包括:通过向前导模型输入文档再进行提问的方式来获取ChatGPT对文档复杂程度的判断;所述S33中的将所述文档复杂度分数输入到所述实体表示增强模块,得到增强后的实体表示,包括:将所述文档复杂度分数输入到实体表示增强模块的门控Gate中,并判断所述文档复杂度分数是否大于或等于预设阈值;若是,则判定所述文档为复杂文档,门控开启,对实体表示进行增强,得到增强后的实体表示;若否,则判定所述文档为简单文档,门控关闭,实体表示即为增强后的实体表示;所述对实体表示进行增强,得到增强后的实体表示,包括:S331、获取实体表示所属的实体,获取实体所属的句子;S332、对所述句子中的所有令牌token序列进行最大池化聚合,得到句子的句子表示;S333、将所述句子表示按照实体表示的维度叠加到实体表示中,得到增强后的实体表示。

全文数据:

权利要求:

百度查询: 北京语言大学 一种文档级事件抽取的候选论元过滤方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。