首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种中文结构化事件抽取方法_万齐智;万常选;胡蓉;刘德喜_202011015681.0 

申请/专利权人:万齐智;万常选;胡蓉;刘德喜

申请日:2020-09-24

公开(公告)日:2024-06-11

公开(公告)号:CN112183059B

主分类号:G06F40/211

分类号:G06F40/211;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.06.11#授权;2021.01.22#实质审查的生效;2021.01.05#公开

摘要:本发明涉及一种中文结构化事件抽取方法,属于信息抽取技术领域;一种中文结构化事件抽取方法,利用句法依存分析工具对非结构化文本语句进行句法依存结构分析,获得句法依存分析树;分析中文语言学和句法依存分析树的特征,构建核心动词链,识别语句中存在的所有事件;借助语义依存分析工具为句法依存分析树添加语义依存关系,构建句法语义依存分析树;调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构,构建句法语义依存分析事件图;本发明不需要人工标注数据,能够较好地抽取结构化事件,且抽取的精确率、召回率较高。

主权项:1.一种中文结构化事件抽取方法,其特征在于:所述的结构化事件记为:ET=Sub,Pred,Obj,其中Sub、Pred和Obj分别表示事件的主语、谓语和宾语,包含以下步骤:A、首先利用句法依存分析工具对非结构化文本语句进行句法依存分析,获得句法依存分析树;B、根据中文语言学和句法依存分析树的特征,建立核心动词链,识别语句中包含的所有事件谓语Pred;C、借助语义依存分析工具,获得语义依存分析树,在获得的句法依存分析树上添加语义依存关系,构建句法语义依存分析树;D、根据语义依存关系,调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构,构建句法语义依存分析事件图;E、基于构建的句法语义依存分析事件图,通过得到的事件核心动词,分别获取事件的主语Sub和宾语Obj;F、添加事件核心动词间语义依存关系;G、添加事件非核心动词间语义依存关系;所述步骤A中句法依存分析采用LTP工具,句法依存分析树记为:DP=V,E,其中V表示经LTP分词后的词语集合,E表示词语的句法依存集合;所述中文语言学包括以下特征:特征1、事件由动词触发,谓语一般由动词充当;特征2、语句中具有并列关系的谓语在句法结构上应该拥有相同的地位或性质,即形成的句法结构在语法角度上应通过某个约定的并列符号进行关联;所述句法依存分析树包含以下特征:特征3、一条语句只给出一个核心词,事件间谓语为父子结点,且保持连续;特征4、事件谓语之间父子结点的边为COO句法依存关系,且依存路径上不能出现其他句法依存关系;通过对依存于语句核心词的所有具有连续COO的动词结点进行识别,建立核心动词链,记为CVC=V,其中每个动词对应一个事件,称为核心动词,V表示语句核心动词集合,建立规则包括:规则1、如果LTP给出的语句核心词是动词,则默认属于核心动词链中,否则考虑其满足COO关系的孩子结点,直到找到动词为止;规则2、加入的结点是与核心动词链中结点构成COO关系的动词结点,且确保添加的动词从语句核心词开始一直保持COO关系的连续性,一旦中断则不再考虑后续动词;规则3、如果LTP给出的语句核心词是非动词,且其孩子中没有满足COO关系的动词结点,则该语句不生成核心动词链;所述步骤C中语义依存分析采用SDP工具,语义依存分析树记为:SDP=V,E,其中V表示经LTP分词后的词语集合,E表示词语的语义依存关系集合;所述步骤F中向句法依存分析树中添加语义依存关系具体步骤包括:步骤1、对DP树进行剪枝,只保留主语、核心动词和宾语等主干成分,减少DP树中的结点数量;步骤2、对剪枝后的DP树进行语义依存分析,获取核心动词间语义关联;步骤3、将获取的语义关联添加至原始DP树中;其中,核心动词代表事件,事件间的语义依存关系采用eXX如eCoo表示,对于核心动词间非eXX关系的情况,在依赖的孩子结点中查询获取,并作为核心动词间语义关联;所述步骤G中向句法依存分析树中添加事件非核心动词间语义依存关系具体步骤包括:步骤4、对于DP树与SDP树中依存结构相同的结点,将其语义依存关系直接添加至DP树中;步骤5、对于DP树与SDP树中依存结构不相同的结点,其语义依存关系添加为“NULL”;添加了语义依存关系的句法依存分析树称为句法语义依存分析树,记为:SSDP=V,E,E=EdpUsdp,其中V表示词语集合,E=EdpUsdp表示词语的句法依存关系和语义依存关系集合;所述步骤D中的调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构,具体包括:调整1、将除直接依存于根结点的事件核心动词外的所有事件核心动词调整为根结点的直接孩子结点;调整2、将依存于介词的主语或宾语调整为直接依存于所属事件核心动词,调整规则包括:规则4、调整后的语义依存关系采用语义依存分析树中介词的主语或宾语的语义依存关系;规则5、句法依存关系则根据调整后的语义依存关系的语义含义调整,如果属于主语含义,则句法依存关系调整为SBV,如果为宾语含义,则调整为VOB,否则保持原有句法依存关系;调整3、将被动语态涉及的主语和宾语调整为主动语态下主语和宾语,具体步骤如下:步骤6、提升被动语句对应结点层级;步骤7、借助语义依存分析树中该结点的语义依存关系,将被动语义和主动语义的依存关系调转,修改句法依存关系和语义依存关系;将事件谓语、介词和被动语态依存结构调整后的以事件为单位且不满足树定义的有向图称为句法语义依存分析事件图,记为:SSPEG=V,E,V={Ve1,Ve2,…,Vei},,其中Vei表示事件ei包含的词语集合,表示事件ei包含词语的句法依存关系和语义依存关系集合;基于SSPEG,获取所有事件核心动词,针对每个事件核心动词,扫描其孩子结点,分别获取句法关系为SBV的结点作为事件的主语Sub、句法关系为VOB的结点作为事件的宾语Obj。

全文数据:

权利要求:

百度查询: 万齐智;万常选;胡蓉;刘德喜 一种中文结构化事件抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。