买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京美络克思科技有限公司
摘要:本发明涉及计算机技术领域,尤其涉及一种版式文件结构化处理方法。该方法包括导入待处理版式文件;形成实体关系组;形成对应的表结构进行储存,将半结构化数据转化为结构化数据;检测修正。本发明通过对导入的各种格式的版式文件进行解析,以识别版式文件中的半结构化数据,以将半结构化数据转换为结构化数据,通过对半结构化数据进行文本提取,以提取关键信息,通过将识别的实体与拆分的图像片进行匹配,找出与实体相关联的图像片,将匹配的图像片与文本数据段以及对应的实体关系存储为图结构,通过图结构清晰地表示文本数据段、实体、实体关系和关联的图像片之间的关系,方便进一步的分析和查询,提高数据的管理和分析效率。
主权项:1.一种版式文件结构化处理方法,其特征在于,包括,导入待处理版式文件,对所述待处理版式文件进行解析,以获取所述待处理版式文件中的半结构化数据,得到原始数据;将原始数据分为图像数据和语义数据,对所述图像数据进行轮廓识别,得到目标图像片,对所述语义数据进行文本提取,得到原始文本数据;对所述原始文本数据进行预处理,得到中间文本数据;以句号为标识符将所述中间文本数据分为若干待处理语句,对各所述待处理语句进行关键词抽取和属性抽取,以根据抽取结果形成若干实体关系组;将所述实体与各所述目标图像片进行匹配,得到关联图像片,获取任意所述待处理语句中各所述实体对应的实体关系组的个数记作对应的实时组数目;将标准组数目与实时组数目进行比较,根据比较结果形成对应的表结构进行储存,以将原始版式文件中的非结构化数据转化为结构化数据;其中,在实时组数目大于标准组数目,且实时实体个数大于标准实体个数时,连接所述实体、所述实体对应的关联关系组和关联图像片,形成对应的表结构;计算所述待处理语句与下一相邻待处理语句的语义相似度,在语义相似度大于等于标准相似度时,将所述待处理语句与下一相邻待处理语句进行合并,直至语义相似度小于标准相似度时停止,形成待处理组合语句,获取与所述待处理组合语句匹配的所述目标图像片,作为检测图像片,计算所述检测图像片与待处理组合语句对应的原始关联图像片的实时重合率,将标准重合率与实时重合率进行比较,以根据比较结果确定是否将标准分割个数修正为修正分割个数。
全文数据:
权利要求:
百度查询: 北京美络克思科技有限公司 一种版式文件结构化处理方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。