首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度切割识别巨幅碑帖拓印文字的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:宁波市天一阁博物院

摘要:本发明涉及一种基于深度切割识别巨幅碑帖拓印文字的方法,该方法包括如下:流程1:OCR识别请求,传入碑帖拓印影像、切割深度、单字宽度等参数,对碑帖拓印影像进行切割;流程2:将流程1处理的切割图像文件分别进行OCR文字识别提取;流程3:将流程2获得的OCR识别结果由最底层向上递归进行坐标转换及数据合并;流程4:将流程3的处理结果进行去重处理,在模拟实验环境中,使用像素宽度大于7000px、高度大于10000px,包含文字大于3000的碑帖拓印影像5张进行OCR识别,在引入本发明方法后,5张碑帖拓印影像能得到OCR文字提取结果,文字获取准确率大于90%,改善效果明显。

主权项:1.一种基于深度切割识别巨幅碑帖拓印文字的方法,其特征在于,该方法包括如下:流程1:OCR识别请求,传入碑帖拓印影像、切割深度、单字宽度,对碑帖拓印影像进行切割;流程2:将流程1处理的切割图像文件分别进行OCR文字识别提取;流程3:将流程2获得的OCR识别结果由最底层向上递归进行坐标转换及数据合并;流程4:将流程3的处理结果进行去重处理,如果在识别图像中央有文字,则切出来的4份等分方格的边缘与十字方格的文字会有重合,所以需要进行文字去重处理;流程1中所述对碑帖拓印影像进行切割的方法其流程算法步骤如下:步骤1:以左上角为初始原点坐标点,获取影像原始四个顶点坐标,可得订单坐标分别为(x1,y1)、x2,y2、x1,y2、x2,y2,此时可得图像的宽width=x2–x1,图像的高height=y2–y1;步骤2:将图片等分切成四块,获得中点(x3,y3)坐标点,同时得到四个切片,p1,p2,p3,p4,此时x3=width2,y3=height2;步骤3:将文字宽度参数除以2,获得偏移量m=fontwidth2,然后以中点(x3,y3)分别像上、下、左、右各自偏移一个m的位移量,获得p5、p6、p7、p8四个矩形方格,切割此方格的目的是防止恰好图片的中线处有文字被切开而导致漏字,因此以一个文字宽度为范围去取图像中间四个矩形方条,此时新增关键坐标点有(x4,y1)、x1,y4、(x2,y5)、(x5,y2),其中x4=x3–m、y4=y3–m、x5=x3+m、y5=y3+m;步骤4:以上是单张图片切割后的资源文件,切割完成即可将各个方格分别传入OCR文字提取服务获得对应方格内的文字,不限OCR识别框架及模型,任意基于深度学习训练的OCR文字识别及提取模型即可使用,如果切割后的方格依然过大,调整切割深度,将p1、p2、p3、p4方格按此方式再切割一轮,并可调整切割深度直至方格适合做OCR文字提取即可。

全文数据:

权利要求:

百度查询: 宁波市天一阁博物院 一种基于深度切割识别巨幅碑帖拓印文字的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。