首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】篇章级事件抽取方法、系统和设备_北京感易智能科技有限公司_202111543337.3 

申请/专利权人:北京感易智能科技有限公司

申请日:2021-12-16

公开(公告)日:2024-06-07

公开(公告)号:CN114168738B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/117;G06F40/279;G06N3/04;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.07#授权;2022.03.29#实质审查的生效;2022.03.11#公开

摘要:本发明属于文本数据识别领域,具体涉及了一种篇章级事件抽取方法、系统和设备,旨在解决现有的文本数据事件抽取方法,无法从篇章的层面考虑对事件的抽取,没有提供事件描述跨句跨段的应对方法的问题。本发明包括通过神经网络特征提取器选出主题句;并通过神经网络分类器获得事件句;进而获得事件句词向量和事件句上下文词向量,并通过指针网络获取事件要素和事件要素位置;获取所有能够完整组成事件的事件要素组合;将同属于一个事件要素组合的事件要素进行特征提取,获得要素‑要素特征;将所有的所述要素‑要素特征进行拼接,将拼接要素组合选出能构成事件的要素组合。本发明从篇章的层面考虑对事件的抽取,提高了事件抽取的准确性。

主权项:1.一种篇章级事件抽取方法,其特征在于,所述方法包括:步骤S100,获取待抽取文本数据;步骤S200,基于所述待抽取文本数据,通过神经网络特征提取器获取每个分句对应的句向量;步骤S300,将所述句向量按照对应句子的原文顺序排列,并在分段处插入分段标记,在句向量后拼接位置向量,获得拼接向量;步骤S400,基于所述拼接向量,通过训练好的神经网络特征提取器提取拼接向量特征,并通过softmax分类器进行分类,获得主题句和背景句;步骤S500,将所述主题句进行逐词向量化,并拼接位置向量获得主题句词向量,将所述主题词向量通过神经网络分类器,获得事件句和非事件句;步骤S600,将所述事件句与所在位置的前后预设数量句子或段落进行拼接并逐词向量化再拼接位置向量,获得事件句词向量和事件句上下文词向量,基于所述事件句词向量和事件句上下文词向量,通过指针网络获取事件要素和事件要素位置;步骤S700,根据事件定义,获取所有能够完整组成事件的事件要素备选组合;步骤S800,将同属于一个事件要素备选组合的事件要素通过第二特征提取器进行特征提取,获得要素-要素特征;步骤S900,将所有的所述要素-要素特征进行拼接,获得拼接要素组合,通过神经网络分类器将所述拼接要素组合分类为能构成一个事件的要素组合和不能构成事件的要素组合,所述能构成事件的要素组合即为提取的事件。

全文数据:

权利要求:

百度查询: 北京感易智能科技有限公司 篇章级事件抽取方法、系统和设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。