首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种金融长文本复核系统_广州故新智能科技有限责任公司_202110531556.3 

申请/专利权人:广州故新智能科技有限责任公司

申请日:2021-05-17

公开(公告)日:2024-06-18

公开(公告)号:CN113159969B

主分类号:G06Q40/06

分类号:G06Q40/06;G06F40/18;G06F40/30;G06V30/416;G06V20/70

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2021.08.10#实质审查的生效;2021.07.23#公开

摘要:本发明提供一种金融长文本复核系统,其用于解析和审核非结构化金融数据长文本,其包括数据解析模块以及数据审核模块,所述数据解析模块将非结构化数据解析成结构化数据,该数据解析模块包括版面识别单元、表格语义分析单元以及表格语义解析单元;所述数据审核模块对结构化数据进行审核处理,该数据审核模块包括错别字审查单元、一致性审核单元、勾稽关系审核单元以及文本格式审核单元。

主权项:1.一种金融长文本复核系统,其用于解析和审核非结构化金融数据长文本,其特征在于,其包括数据解析模块以及数据审核模块,所述数据解析模块将非结构化数据解析成结构化数据,该数据解析模块包括版面识别单元、表格语义分析单元以及文本语义解析单元,所述版面识别单元用于获取原始金融数据长文本对的文档篇章结构信息,所述表格语义分析单元用于分析版面识别单元获取的表格数据并按预定义的数据模型组织存储数据,所述文本语义解析单元用于解析版面识别单元获取的段落、标题数据并按预定义的数据模型组织存储数据;所述数据审核模块对结构化数据进行审核处理,该数据审核模块包括错别字审查单元、一致性审核单元、勾稽关系审核单元以及文本格式审核单元,其中,所述错别字审查单元根据NLP模型检测潜在错别字得到候选字符及概率并结合领域字典针对段落、标题数据查找错别字提出纠正建议,所述一致性审核单元根据会计准则对表格数据进行审核,所述勾稽关系审核单元根据会计准则提取文本中存在的勾稽关系规则,并由该些勾稽关系规则进行数据审核;所述文本格式审核单元根据标题和文本的目录结构,根据序号连续性和关联序号规则进行格式审核;其中,所述非结构化金融数据长文本为PDF格式文本;所述版面识别单元获取原始金融数据长文本对的文档篇章结构信息的具体步骤为:S10:将PDF格式文本按页转换为图片格式文本,并进行拉伸以及二值化预处理;S11:根据CV模型检测预处理后的图片格式文本,获取表格、页眉、页脚、图片、公式数据;S12:提取表格、页眉、页脚、图片、公式数据以外的文字数据,并将该些文字数据按页,行顺序组织;S13:根据NLP模型将提取的文字数据划分为段落数据和标题数据;S14:整合输出提取的数据保存至数据库中;所述表格语义分析单元对表格数据分析的具体步骤为:S20:获取S14中的表格数据;S21:对表格数据进行预处理,包括:数据清洗和集合划分;S22:根据NLP模型解析预处理后的表格数据并提取表格数据关系;S23:将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中;所述文本语义解析单元解析段落数据和标题数据的具体步骤为:S30:获取S14中的段落数据和标题数据;S31:对段落数据和标题数据进行预处理,包括:数据清洗、数据长度切割、定位数据提取位置,以及数据字型特征转换为预定义字型格式;S32:根据NLP模型解析预处理后的段落数据和标题数据,提取数据文本中的关键信息、相关必要信息以及关键信息之间的关联;S33:将解析后的段落数据和标题数据按预定义的数据模型组织输出并保存至数据库中。

全文数据:

权利要求:

百度查询: 广州故新智能科技有限责任公司 一种金融长文本复核系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。