买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京明略软件系统有限公司
摘要:本申请涉及一种基于json规则文件的知识抽取方法、系统及规则解析引擎,该方法包括以下步骤:json规则文件编写步骤,根据实体规则和关系规则编写json规则文件;命名实体抽取步骤,根据json规则文件遍历原始文本和原始文本处理后的文本,输出命名实体列表;关系抽取步骤,接受命名实体列表,根据json规则文件遍历命名实体列表和原始文本,输出实体关系;知识整合步骤,根据命名实体列表和实体关系,得到包括命名实体、实体关系的结构性数据。通过规则解析引擎对以json格式的规则文件进行解析,解决了当前无法快速准确的进行知识抽取的问题,实现了非结构化文本数据中的命名实体、实体关系以及实体属性的快速抽取。
主权项:1.一种基于json规则文件的知识抽取方法,其特征在于,包括以下步骤:json规则文件编写步骤,根据实体规则和关系规则编写json规则文件,实体规则包括实体名称、实体中文名称、分词标签和正则表达式,关系规则包括关系名称、关系中文名称、主体名称、客体名称和规则匹配序列,规则匹配序列的元素包括但不限于主体元素、客体元素和关键字字符串;命名实体抽取步骤,根据所述json规则文件遍历原始文本和所述原始文本处理后的文本,输出命名实体列表;关系抽取步骤,根据所述json规则文件遍历所述命名实体列表和所述原始文本,输出实体关系;知识整合步骤,根据所述命名实体列表和所述实体关系,得到包括命名实体、实体关系的结构性数据,结构化数据包括命名实体、关系和属性,其中:命名实体包括实体内容、实体类别和起始终止位置;关系包括关系类别、主客体内容、主客体类别和主客体起始终止位置;属性包括属性类别、实体属性内容、实体属性类别和实体属性起始终止位置;其中,命名实体抽取步骤具体包括:初处理步骤,根据所述原始文本利用分词器进行分词,输出分词和所述分词标签,并对所述分词进行词性标注;遍历步骤,根据所述分词标签和所述正则表达式,检测所述原始文本中的实体,并输出所述命名实体列表;其中,关系抽取步骤具体包括以下步骤:主客体匹配步骤,根据所述规则匹配序列中所述主体元素和所述客体元素,检测所述命名实体列表中主体和客体,完成主体和客体的匹配;实体关系匹配步骤,将所述原始文本与所述元素进行匹配,输出所述实体关系。
全文数据:
权利要求:
百度查询: 北京明略软件系统有限公司 基于json规则文件的知识抽取方法、系统及规则解析引擎
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。