买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:国家计算机网络与信息安全管理中心
摘要:本发明公开了一种多粒度相似性增强的篇章级事件论元抽取方法及系统,属于文本信息抽取领域。本发明首先将文档输入预训练语言模型编码,得到高维度嵌入表示;然后构建包含句子和段落节点的异构图,通过图神经网络融合全局语义信息;最后,通过对比学习和排序损失增强段落和句子粒度的相似性。本发明解决了远距离事件论元抽取的难题,并有效缓解了噪音实体对抽取结果的干扰,提高了抽取的准确性和鲁棒性。
主权项:1.一种多粒度相似性增强的篇章级事件论元抽取方法,其特征在于,包括以下步骤:将文档使用预训练语言模型BERT进行编码,获取文档中每个单词的嵌入表示;基于文档构建异构图,该异构图包含句子节点和段落节点,句子节点表示句子,段落节点表示段落中的触发词和事件论元,该异构图的边表示句子、段落、触发词和事件论元之间的关系;计算句子和段落中单词的嵌入表示,初始化句子节点和段落节点的表示;通过多层图卷积网络进行多层信息传播和节点表示更新,并使用前馈神经网络得到节点的嵌入表示;将节点的嵌入表示输入到训练好的多粒度相似性增强模型中,识别抽取文档的事件论元;该多粒度相似性增强模型的训练步骤包括:以事件论元作为正样本,以随机采样的段落作为负样本,基于正、负样本的嵌入,通过对比学习拉近触发词和正样本的事件论元的距离,推远触发词与负样本的距离;将包含事件论元的句子作为正样本,将不包含触发词和事件论元的句子作为负样本,基于正、负样本的嵌入,使用排序损失使正样本的嵌入表示相似度高于负样本。
全文数据:
权利要求:
百度查询: 国家计算机网络与信息安全管理中心 一种多粒度相似性增强的篇章级事件论元抽取方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。