一种将非结构金融Excel表格映射到数据库的优化系统

导航：龙图腾网> 最新专利技术> 一种将非结构金融Excel表格映射到数据库的优化系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京快确信息科技有限公司

摘要：一种将非结构金融Excel表格映射到数据库的优化系统，它涉及数据处理技术领域。它包括以下具体流程：提供一个标准的excel文件输入服务接口，接收excel表格数据；判断excel中存在几个sheet文件，对每个sheet文件进行如下操作:依次对每个sheet进行操作；对单个sheet文件依次进行操作；构建一套神经网络模型，将每列的列名和内容整合，通过神经网络模型，预测没列信息和数据库中列名的映射关系；将结果写入到结构数据库。本发明有益效果为：实现了对Excel表格中非结构信息的标准化，并且依据表格中的数据将其映射到数据库的对应列，在金融业务中达到96％‑98％的准确率，基本满足商用要求。

主权项：1.一种将非结构金融Excel表格映射到数据库的优化方法，其特征在于：它包括以下具体流程：步骤1：提供一个标准的excel文件输入服务接口，接收excel表格数据；步骤2：判断excel中存在几个sheet文件，对每个sheet文件进行如下操作，依次对每个sheet进行操作步骤3；步骤3：对单个sheet文件依次进行如下操作：a）首先判断sheet的状态信息，记录在状态库中；b）其次基于规则和机器学习的算法模型，判断有几个独立的表格、每个表的标题、表头信息；c）最后对表格进行重组，将合并单元格进行拆分，形成标准的M*N的表格；步骤4：构建一套神经网络模型，将每列的列名和内容整合，通过神经网络模型，预测每列信息和数据库中列名的映射关系；步骤5:将结果写入到结构数据库；所述步骤1中服务接口包括以下类型：1.1）提供标准的web服务接口，接收前端发送来的excel文件，并进行文件内sheet格式的判断，记录sheet的数量，并且逐一提取sheet表格中的数据；1.2）针对每个sheet表格，逐一调用表格结构识别模型和表格数据映射模型，获取每个sheet中标准化后的表格数据，整理成标准格式；1.3）服务接口，将标准化后的数据返回，写入结构数据库或者返回前端展示，完成excel表格映射的完整流程；表格状态信息的提取包括以下步骤：步骤2.1：状态记录器：记录开始行列、结束行列；哪些行是整行合并单元格，哪些行是整行字体加粗，哪些行是整行的底色都修改；步骤2.2：采用规则和聚类算法，进行子表格拆解；步骤2.3：表格要素标题、列名、数据的识别；步骤2.4：表格标准化，子表重新组合和合并单元格拆分；所述步骤2.1包括以下具体流程：a）通过开源插件读取一个sheet的表格信息，包括行数、列数，以及开始行和结束行，具体办法是通过每一行、每一列中是否有数据以判断开始行或列；b）逻辑判断每一行是否整行合并单元格、是否整行都有底色、是否整行都字体加粗，将这些信息分别写入到状态记录器；c）计算每一行的长度；计算每一行的结束列的信息，结束点的规则是当前行的单元格后续没有数据为止；所述步骤2.2包括以下操作流程：a）采用规则对一个sheet内的表格进行拆解，所述规则包括以下几点：规则1：整行单元格合并的情况，定义为多个子表之间的分割标准；规则2：整行单元格字体都加粗的情况，定义为多个子表之间的分割标准；规则3：整行表格数据都加有底色，并且上一行的底色和当前行的底色不一致，定义为多个子表之间的分割标准；规则4：采用聚类算法，依据每行的长度值、行内的要素特征，进行聚类，依据聚类结果，当相邻两行不在同一类时，定义为多个子表之间的分割标准；b）聚类的具体实现方法：基于DBSCAN聚类算法，结合文本特征输入embedding信息，令centroid上下多次游走，以记录一定长度编码分布偏移，若有明显偏移且与当前列表表头偏移量接近，则判断上下为表格边界；所述步骤2.3包括以下识别方法：a）表格的标题识别，采用规则逻辑，规则：整行合并单元格，默认往下合并，并且作为当前表格的标题或备注信息；b）表格列名的识别，采用规则逻辑，规则1：如果整行字体都加粗的，默认为表格的列名；规则2：如果整行都有底色，并且上一行和下一行都没有底色或底色和当前行不同，默认为表格的列名；c）表格数据识别，不满足以上标题、列名逻辑规则的数据，默认为是表格内的数据信息；所述步骤2.4包括以下操作流程：a）子表重新组合，针对每一个子表，规则1：如果当前表的列名和下一个子表的列名相同，或者其中一个子表列名完全属于另一个子表列名，则两个子表合并；b）针对每个子表，根据表格状态，判断存在合并单元格的情况，则将合并单元格拆解，拆解后的单元格赋予相同的值，由此形成一到多个标准的M*N的表格；根据步骤2.4，形成了一个或多个标准的M*N的表格；每个不完整的表格结构信息包含：表格标题、表头、表格数据、备注，其中表格标题、备注是整行合并单元格的文本信息，表头、表格数据是标准的M*N的数据，依据表格列名、表格数据；将其与数据库中的列名进行一一映射，且表格数据映射包括以下流程：1）数据准备，考虑到每个表格的一列数据会很长，采用随机抽取的方法，从一列数据中提取出5-10个单元格数据和列名，组合成一组列信息，每列数据采用相同的方法，形成N组相应的预测数据；2）构建神经网络模型，通过神经网络模型，对每一列数据进行预测，判断其与数据库中的列信息的映射关系；3）针对每个表格，输出最终的完整的表格结构信息，包含表格的表格标题、表头、表格数据、备注，以及每一列的信息在数据库中的映射关系；所述步骤4中神经网络模型包括以下编码层：4.1）编码层，考虑到每个表格中存在长文本、字符串、浮点数和整数数据类型,而在金融体系中浮点、整数、字符串信息是至关重要的，用原生的预训练模型进行浮点数和整数的预处理是不恰当的，故优化了整个预训练模型的编码层；4.2）数值编码层：对数值的所在位置，数值进行单独编码方式：根据语料特征，支持上限为5个数据进入数值编码体系，每个数值的每一位，包含正负号，整数部分支持8位，小数部分支持4位，每一位数做无损one-hot编码，与文本字符串编码平行，文本部分采取序列均值，最高值，结尾序列进行合并；4.3）降维层，由于编码层维度较大，这里采取text-cnn方式进行降维，1d使用低out-channel，偏大的stride，配合线性降维自编码器，进行残差拼接，实现降维操作；4.4）输出层使用全连接层接入上层featuremap，由于上层拼接操作而造成的维度变化，采用了batch-正则，drop掉10%的参数防止过拟合，然后接入上述全连接层进行计算，loss采取的多分类交叉熵，并对不平衡部分做权重调整；4.5）使用神经网络模型结构进行操作，将每列数据映射到数据库对应列。

全文数据：

权利要求：

百度查询：北京快确信息科技有限公司一种将非结构金融Excel表格映射到数据库的优化系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种喷砂系统

下一篇：用户装备、基站和用于激活和释放多个配置的授权的方法

相关技术

一种喷砂系统

用户装备、基站和用于激活和释放多个配置的授权的方法

喷粉瓶

轴向磁通电机

一种立轴冲击式破碎机的转子结构

一种会话检测方法、装置、检测设备及计算机存储介质

一种铝合金车架纵横梁厚板接头智能设计方法与装置

一种向列相液晶组合物、液晶显示元件及液晶显示器

图像处理方法、装置、设备及存储介质

一种豆制品分离设备

一种曲柄摇杆式道闸机芯

图像处理方法、系统、介质及产品

表格相关技术

一种表格识别方法及设备_华为技术有限公司_202310493421.1

表格文件数据自动更新方法及装置、设备、存储介质_广州工程技术职业学院_202410672989.4

结合RPA和AI的表格生成方法、装置、电子设备及存储介质_北京来也网络科技有限公司_202111026974.3

一种基于表格式可视化的发电集团级指标管理系统_华能国际电力股份有限公司大连电厂_202410193850.1

一种将非结构金融Excel表格映射到数据库的优化系统_北京快确信息科技有限公司_202111000985.4

一种面向财务流程表格优化的财务数据提取方法_国网汇通金财(北京)信息科技有限公司_202410891189.1

电子表格数据处理方法、装置、计算机设备和存储介质_深圳市金蝶天燕云计算股份有限公司_202110685527.2

表格合并方法、系统及相关产品_金蝶软件(中国)有限公司_202410846299.6

一种盲文文档表格识别方法及系统_杭州小曦智能科技有限公司_202410988524.X

一种基于react的表格扩展系统及方法_奇秦科技(北京)股份有限公司_202410965112.4

映射相关技术

光子映射方法、装置、计算机设备及存储介质_安徽空境信息科技有限公司_202410800754.9

一种基于地址重映射的烧录文件加解密方法及其系统_珠海一微半导体股份有限公司_202011236427.3

一种毫米波图像可疑物品人偶映射方法_航天长征火箭技术有限公司_202111520462.2

一种基于曲线映射的约束条件阵列设计方法及其系统_哈尔滨工程大学_202410192190.5

基于弱投影映射和双模态顺序增强融合的检测方法及系统_山东大学_202411375189.2

一种基于多因素映射模型的点焊熔核质量预测方法和设备_华中科技大学_202210139462.6

一种将非结构金融Excel表格映射到数据库的优化系统_北京快确信息科技有限公司_202111000985.4

一种像方映射的高轨多面阵相机内视场拼接方法及系统_湖北工业大学_202410943730.9

一种多层级协同映射的高光谱与多光谱遥感图像融合方法_西安电子科技大学杭州研究院_202411399521.9

一种室内模拟真实导航星座模拟信号空域映射方法、装置、电子设备及存储介质_湖南卫导信息科技有限公司_202411092688.0

Excel相关技术

一种将非结构金融Excel表格映射到数据库的优化系统_北京快确信息科技有限公司_202111000985.4

一种基于NodeJs的Excel实时协同办公微服务方法_江苏航天龙梦信息技术有限公司_202411049962.6

基于EasyExcel的Excel文件导入方法、装置、设备、介质及程序产品_中移物联网有限公司_202410719621.9

基于EXCEL文件的通信方法、装置及存储介质_杭州华塑科技股份有限公司_202410969206.9

一种excel文件安全转移的方法及系统_西藏众陶联供应链服务有限公司_202410923206.5

一种异步excel导出处理方法、系统、电子设备及存储介质_武汉众邦银行股份有限公司_202410848136.1

EXCEL数据处理方法、装置、设备及存储介质_江苏常熟农村商业银行股份有限公司_202310758114.1

一种借助Excel扩充Oracle ERP查询条件的方法_吉安伊戈尔磁电科技有限公司_202410849324.6

一种将Excel表格数据导入数据库的方法_吉安伊戈尔磁电科技有限公司_202410849360.2

Excel文档操作评分方法及相关设备_文华学院_202410823558.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种将非结构金融Excel表格映射到数据库的优化系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务