首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于额外关系信息的中文实体关系抽取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华东师范大学

摘要:本发明提供一种基于额外关系信息的中文实体关系抽取方法,包括以下步骤:步骤1:获取网络上的中文非结构化文本语料;步骤2:对于实体关系进行标注;步骤3:针对关系类型构建额外信息;步骤4:构建实体关系抽取任务的数据集;步骤5:训练基于额外关系信息的实体关系抽取模型;步骤6:使用实体关系抽取模型对非结构化文本进行抽取。本发明通过使用中文Bert,通过潜在关系预测,将关系信息融入到三元组提取当中,并且通过潜在关系预测与实体标注。

主权项:1.一种基于额外关系信息的中文实体关系抽取方法,其特征在于,包括以下步骤:步骤1:获取网络上的中文非结构化文本语料在网络上爬取长短小说文本、新闻文本,爬取文本的是基于段落和篇章级别的语料;之后对于爬取的数据进行数据清理、去除多余符号,并进行分句操作,整理成为整洁规范的句子级别的文本数据;步骤2:对于实体关系进行标注对于得到的句子进行分词,并进行实体与关系的标注,为句子标注出正确的三元组,并且将关系类型进行汇总;步骤3:针对关系类型构建额外信息针对于关系的类型,通过查阅字典,观察关系所关联的实体类型,为每一个关系类型编写对应的解释信息,作为额外信息;步骤4:构建实体关系抽取任务的数据集将步骤2中得到的句子集与句子中三元组进行匹配,将句子通过字典进行编码,同时与编码后的实体进行匹配,标注出头尾实体在句子中的位置,统计一个句子中包含的潜在关系,并在向量中进行标注;在模型训练的过程中提供一个头实体对应的三元组,在获取一个句子确定在此次训练中会被训练到的三元组,采用随机选取一个头实体来构建训练数据,并且对于处理过后的数据集按照8∶1∶1的比例划分出训练集、验证集和测试集;步骤5:训练基于额外关系信息的实体关系抽取模型首先选取中文Bert预训练模型,使得模型适配中文应用场景,之后将步骤4得到的编码后句子映射到向量空间中,之后通过线性层预测句子中包含的潜在关系,并将潜在关系信息与句子本身信息进行融合,最后进行实体预测;模型使用Adam优化器传播更新模型的参数,每次更新参数后计算模型在步骤4建立的验证集上计算模型的预测损失,重复上述过程直到验证集上模型的预测结果在10个Epoch内不在提升,保存此时最优模型;步骤6:使用实体关系抽取模型对非结构化文本进行抽取首先将无结构化文本进行分句,并进行编码,之后预测潜在关系,并取其中大于阈值的为文本中包含的关系,循环遍历潜在关系,将句子信息与潜在关系的信息进行融合,最后预测潜在关系对应的头尾实体构建三元组。

全文数据:

权利要求:

百度查询: 华东师范大学 一种基于额外关系信息的中文实体关系抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。