买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京快确信息科技有限公司
摘要:一种将非结构金融Excel表格映射到数据库的优化系统,它涉及数据处理技术领域。它包括以下具体流程:提供一个标准的excel文件输入服务接口,接收excel表格数据;判断excel中存在几个sheet文件,对每个sheet文件进行如下操作:依次对每个sheet进行操作;对单个sheet文件依次进行操作;构建一套神经网络模型,将每列的列名和内容整合,通过神经网络模型,预测没列信息和数据库中列名的映射关系;将结果写入到结构数据库。本发明有益效果为:实现了对Excel表格中非结构信息的标准化,并且依据表格中的数据将其映射到数据库的对应列,在金融业务中达到96%‑98%的准确率,基本满足商用要求。
主权项:1.一种将非结构金融Excel表格映射到数据库的优化方法,其特征在于:它包括以下具体流程:步骤1:提供一个标准的excel文件输入服务接口,接收excel表格数据;步骤2:判断excel中存在几个sheet文件,对每个sheet文件进行如下操作,依次对每个sheet进行操作步骤3;步骤3:对单个sheet文件依次进行如下操作:a)首先判断sheet的状态信息,记录在状态库中;b)其次基于规则和机器学习的算法模型,判断有几个独立的表格、每个表的标题、表头信息;c)最后对表格进行重组,将合并单元格进行拆分,形成标准的M*N的表格;步骤4:构建一套神经网络模型,将每列的列名和内容整合,通过神经网络模型,预测每列信息和数据库中列名的映射关系;步骤5:将结果写入到结构数据库;所述步骤1中服务接口包括以下类型:1.1)提供标准的web服务接口,接收前端发送来的excel文件,并进行文件内sheet格式的判断,记录sheet的数量,并且逐一提取sheet表格中的数据;1.2)针对每个sheet表格,逐一调用表格结构识别模型和表格数据映射模型,获取每个sheet中标准化后的表格数据,整理成标准格式;1.3)服务接口,将标准化后的数据返回,写入结构数据库或者返回前端展示,完成excel表格映射的完整流程;表格状态信息的提取包括以下步骤:步骤2.1:状态记录器:记录开始行列、结束行列;哪些行是整行合并单元格,哪些行是整行字体加粗,哪些行是整行的底色都修改;步骤2.2:采用规则和聚类算法,进行子表格拆解;步骤2.3:表格要素标题、列名、数据的识别;步骤2.4:表格标准化,子表重新组合和合并单元格拆分;所述步骤2.1包括以下具体流程:a)通过开源插件读取一个sheet的表格信息,包括行数、列数,以及开始行和结束行,具体办法是通过每一行、每一列中是否有数据以判断开始行或列;b)逻辑判断每一行是否整行合并单元格、是否整行都有底色、是否整行都字体加粗,将这些信息分别写入到状态记录器;c)计算每一行的长度;计算每一行的结束列的信息,结束点的规则是当前行的单元格后续没有数据为止;所述步骤2.2包括以下操作流程:a)采用规则对一个sheet内的表格进行拆解,所述规则包括以下几点:规则1:整行单元格合并的情况,定义为多个子表之间的分割标准;规则2:整行单元格字体都加粗的情况,定义为多个子表之间的分割标准;规则3:整行表格数据都加有底色,并且上一行的底色和当前行的底色不一致,定义为多个子表之间的分割标准;规则4:采用聚类算法,依据每行的长度值、行内的要素特征,进行聚类,依据聚类结果,当相邻两行不在同一类时,定义为多个子表之间的分割标准;b)聚类的具体实现方法:基于DBSCAN聚类算法,结合文本特征输入embedding信息,令centroid上下多次游走,以记录一定长度编码分布偏移,若有明显偏移且与当前列表表头偏移量接近,则判断上下为表格边界;所述步骤2.3包括以下识别方法:a)表格的标题识别,采用规则逻辑,规则:整行合并单元格,默认往下合并,并且作为当前表格的标题或备注信息;b)表格列名的识别,采用规则逻辑,规则1:如果整行字体都加粗的,默认为表格的列名;规则2:如果整行都有底色,并且上一行和下一行都没有底色或底色和当前行不同,默认为表格的列名;c)表格数据识别,不满足以上标题、列名逻辑规则的数据,默认为是表格内的数据信息;所述步骤2.4包括以下操作流程:a)子表重新组合,针对每一个子表,规则1:如果当前表的列名和下一个子表的列名相同,或者其中一个子表列名完全属于另一个子表列名,则两个子表合并;b)针对每个子表,根据表格状态,判断存在合并单元格的情况,则将合并单元格拆解,拆解后的单元格赋予相同的值,由此形成一到多个标准的M*N的表格;根据步骤2.4,形成了一个或多个标准的M*N的表格;每个不完整的表格结构信息包含:表格标题、表头、表格数据、备注,其中表格标题、备注是整行合并单元格的文本信息,表头、表格数据是标准的M*N的数据,依据表格列名、表格数据;将其与数据库中的列名进行一一映射,且表格数据映射包括以下流程:1)数据准备,考虑到每个表格的一列数据会很长,采用随机抽取的方法,从一列数据中提取出5-10个单元格数据和列名,组合成一组列信息,每列数据采用相同的方法,形成N组相应的预测数据;2)构建神经网络模型,通过神经网络模型,对每一列数据进行预测,判断其与数据库中的列信息的映射关系;3)针对每个表格,输出最终的完整的表格结构信息,包含表格的表格标题、表头、表格数据、备注,以及每一列的信息在数据库中的映射关系;所述步骤4中神经网络模型包括以下编码层:4.1)编码层,考虑到每个表格中存在长文本、字符串、浮点数和整数数据类型,而在金融体系中浮点、整数、字符串信息是至关重要的,用原生的预训练模型进行浮点数和整数的预处理是不恰当的,故优化了整个预训练模型的编码层;4.2)数值编码层:对数值的所在位置,数值进行单独编码方式:根据语料特征,支持上限为5个数据进入数值编码体系,每个数值的每一位,包含正负号,整数部分支持8位,小数部分支持4位,每一位数做无损one-hot编码,与文本字符串编码平行,文本部分采取序列均值,最高值,结尾序列进行合并;4.3)降维层,由于编码层维度较大,这里采取text-cnn方式进行降维,1d使用低out-channel,偏大的stride,配合线性降维自编码器,进行残差拼接,实现降维操作;4.4)输出层使用全连接层接入上层featuremap,由于上层拼接操作而造成的维度变化,采用了batch-正则,drop掉10%的参数防止过拟合,然后接入上述全连接层进行计算,loss采取的多分类交叉熵,并对不平衡部分做权重调整;4.5)使用神经网络模型结构进行操作,将每列数据映射到数据库对应列。
全文数据:
权利要求:
百度查询: 北京快确信息科技有限公司 一种将非结构金融Excel表格映射到数据库的优化系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。