买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:钧宏科技(北京)有限公司
摘要:本发明公开了一种基于档案文件数字化的处理方法,该方法按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,并对电子化表格进行ETL处理,建立数据仓库,提升了纸质档案信息的利用率和管理效率。
主权项:1.一种基于档案文件数字化处理方法,其特征在于,包括以下步骤:S1、使用第一设备采集纸质档案图像,对所述档案图像进行预处理得到待提取图像,S2、对待提取图像分别进行N*1,1*N的腐蚀膨胀操作,融合后获得所述待提取图像中的表格,S3、按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,所述采用CRNN神经网络模型提取所述局部图像中的字符中,所述CRNN神经网络执行中,先用CNN自动提取图像特征,再将提取的特征送入RNN提取序列特征;S4、将所述电子化表格与纸质档案图像关联保存,S5、将所述电子化表格发送到ETL作业执行请求作业调度节点,S6、作业调度节点获取所述电子化表格ETL作业的元数据信息,S7、判断所述电子化的表格ETL作业是否需要进行数据划分,如果不需要,则直接分配所述电子化的表格ETL作业到计算能力最强的节点上运行,否则作业调度节点收集所有可用计算节点的信息,按照负载信息计算所述电子化表格ETL作业的划分方案;S8、根据所述划分方案,向所选中的N个计算节点发送执行消息;等待所述N个计算节点执行所分配到的任务,并返回执行完毕消息;S9、合并所述划分方案计算结果;S10、将所述计算结果以及纸质档案图像关联保存至目标数据库;包括,将所述计算结果以及纸质档案图像关联保存至目标数据库中,将所述纸质档案图像保存至目标数据库中以便于后续核对;所述按照负载信息计算所述电子化表格ETL作业的划分方案中,负载信息模型为:其中LoadN表示节点N的负载率,cpu,ram,task依次表示CPU利用率,内存利用率以及就绪队列长度的负载指标值,wcpu,wram,wtask依次表示CPU利用率,内存利用率以及就绪队列长度的负载指标值的权重;所述计算节点为FPGA;降噪滤波为双边滤波模型:原始纸质档案图像为F,滤波后图像为其中Fi,j为领域像素点i,j的灰度值,Z为滤波器尺寸,滤波领域大小为Z+1*Z+1,Wa,b,i,j为滤波器权重系数;Ua,b,i,j为空域核函数,Ra,b,i,j为灰度核函数;其中εu,εR分别为空间邻近度因子和灰度相似度因子,Fa,b为中心像素点a,b的灰度值。
全文数据:
权利要求:
百度查询: 钧宏科技(北京)有限公司 一种基于档案文件数字化处理方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。