首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

家谱登记表的信息抽取方法及其装置、电子设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:合肥工业大学

摘要:本发明公开了一种家谱登记表的信息抽取方法及其装置、电子设备。其中,该信息抽取方法包括:对家谱登记表模板进行预处理,得到处理后的家谱登记表模板,之后对处理后的家谱登记表模板中的表格进行解析,得到第一字典和第二字典,然后基于第一字典和第二字典,抽取已录入的所有家谱登记表的信息,得到第三字典,其中,第三字典保存每个家谱登记表各单元格中的人物信息。本发明解决了相关技术中通过人工登记方式,无法自动地对具有不同表格结构的家谱登记表进行结构识别以及抽取人物信息,导致信息抽取效率低的技术问题。

主权项:1.一种家谱登记表的信息抽取方法,其特征在于,包括:对家谱登记表模板进行预处理,得到处理后的家谱登记表模板;对所述处理后的家谱登记表模板中的表格进行解析,得到第一字典和第二字典,其中,所述第一字典保存每个表格的结构解析结果,所述第二字典以属性名单元格坐标为键,以所述属性名单元格相应的属性值单元格坐标为值;对所述处理后的家谱登记表模板中的表格进行解析,得到第一字典和第二字典的步骤,包括:分析所述家谱登记表模板中表格的初始行的表格块个数和表格列数,将分析结果保存到第一预设列表中;解析每个表格块中的表格结构,将解析结果保存到第二预设列表中,其中,在所述第二预设列表中保存单元格行数或者表格行数;将所述家谱登记表模板中所有表格对应的第二预设列表保存在第一字典,其中,所述第一字典的键为所述家谱登记表模板中每个表格的序号,值为所述第二预设列表;基于所述第一预设列表和所述第二预设列表,确定所述家谱登记表模板中每个表格的属性名单元格坐标和属性值单元格坐标,将所述属性名单元格坐标和所述属性值单元格坐标保存到第二字典中;基于所述第一字典和所述第二字典,抽取已录入的所有家谱登记表的信息,得到第三字典,其中,所述第三字典保存每个所述家谱登记表各单元格中的人物信息;基于所述第一字典和所述第二字典,抽取已录入的所有家谱登记表的信息,得到第三字典的步骤,包括:将所述第一字典和所述第二字典转换为第一文件和第二文件;读取所述第一文件和所述第二文件,生成第五字典和第三预设列表,其中,所述第三预设列表中的元素为所述第一字典中的值;遍历已录入的所述家谱登记表中的每个表格,得到每个所述表格的表格块个数和表格列数,保存到第一预设列表;基于所述第三预设列表,解析所述表格的表格结构,并将解析得到的表格结构保存到第四预设列表;基于所述第一预设列表和所述第四预设列表,抽取所述家谱登记表中的信息,保存到第三字典。

全文数据:

权利要求:

百度查询: 合肥工业大学 家谱登记表的信息抽取方法及其装置、电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。