首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本信息的知识实体和关系抽取方法及文本质量评估方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京师范大学

摘要:本发明公开了一种文本信息的知识实体和关系抽取方法及文本质量评估方法,该抽取方法包括:获取文本数据;提取文本数据中的知识实体;根据互信息算法计算知识实体的词组重要指数;根据基于词向量的改良TextRank算法计算知识实体重要性;根据知识实体出现概率以及细化度确定知识实体关系。通过实施本发明,通过计算词组重要指数能够将提取知识实体时丢失的原词重新组合,提高了知识实体抽取的准确性;同时通过计算知识实体重要性,可以便于后续对提取的文本信息进行质量评估;此外,该方法还提出了基于知识实体出现概率以及细化度确定知识实体关系,通过知识实体关系的确定可以便于进一步对文本信息的分析。

主权项:1.一种文本信息的知识实体和关系抽取方法,其特征在于,包括:获取文本数据;提取所述文本数据中的知识实体;根据互信息算法计算所述知识实体的词组重要指数;根据基于词向量的改良TextRank算法计算知识实体重要性;根据知识实体出现概率以及细化度确定知识实体关系;根据互信息算法计算所述知识实体的词组重要指数,包括:将提取的知识实体中的两个知识实体组合;根据互信息算法计算组合后知识实体的余弦互信息值;根据所述余弦互信息值计算组合后知识实体的词组重要指数,所述词组重要指数通过以下公式表示: 其中,Q–V表示词组重要指数,PMI-C表示余弦互信息值;根据基于词向量的改良TextRank算法计算知识实体重要性,包括:计算每个知识实体的词向量;根据所述词向量以及改良TextRank算法计算知识实体的Rank指数,所述改良TextRank算法包括根据知识实体构建关键词网络,所述关键词网络包括网络中的每个关键词节点、根据网络构建范围确定的关键词之间有向有权的边以及关键词的向量距离;计算每个知识实体的逆向文本频率;根据所述Rank指数和逆向文本频率计算知识实体重要性;根据知识实体出现概率以及细化度确定知识实体关系,包括:遍历所述文本数据,确定知识实体对应文档集合;根据所述知识实体对应文档集合计算知识实体出现概率;根据所述知识实体出现概率计算知识实体细化度;根据所述知识实体对应文档集合以及所述知识实体细化度确定知识实体关系。

全文数据:

权利要求:

百度查询: 北京师范大学 文本信息的知识实体和关系抽取方法及文本质量评估方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术