首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种自适应的汉字碑帖图像二值化分割方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南昌工程学院

摘要:本发明公开了一种自适应的汉字碑帖图像二值化分割方法,该方法分为四个步骤:1采用中值滤波预处理;2提取红色成分;3形态学运算以寻找最佳背景估计;4Otsu分割二值图像。本发明属于汉字碑帖图像分割技术领域,保留汉字的笔画特征同时增强字符细节,针对退化的历史碑帖图像,本发明提出了一种基于背景估计的非均匀光照退化的图像二值化自适应分割算法,所提出的方法的新颖之处在于找到一个基于盲无参考图像空间质量评估的最佳背景估计,实验结果表明,该方法能够对退化汉字进行更精确的字符分割。

主权项:1.一种自适应的汉字碑帖图像二值化分割方法,其特征在于,使用彩色图像开发了一种鲁棒算法,用于从背景中分割中文拓片图像,包括如下步骤:1使用中值滤波处理,中值滤波允许大量高空间频率细节通过,同时非常有效地消除平滑邻域中小于一半像素的图像上的噪声;2提取红色成分;3形态学图像处理操作,以便如果发现最小BRISQUE,则可以找出圆盘的最佳直径Thr*;所述的形态学为数学形态学,利用数学形态学进行图像处理的基本思想是利用具有一定形状的结构元素来检测目标图像,通过对图像目标区域和填充方法中结构元素的有效性进行分析,得到图像形态和结构的相关信息,并利用它们实现图像分析和识别的目的;4使用Otsu分割二值图像。

全文数据:一种自适应的汉字碑帖图像二值化分割算法技术领域[0001]本发明属于汉字碑帖图像分割技术领域,具体是指一种自适应的汉字碑帖图像二值化分割算法。背景技术[0002]中国保留自己历史文化的重要方式是写在石头上的记忆一一铭文。同时,拓片是中国古代书籍的重要组成部分,它是人们学习和研究历史的主要来源。拓片文献数字化是弘扬和传承中国传统艺术的新途径,是保护石质文物的新思路。另一方面,现存古籍拓片往往失去视觉质量。随着时间的推移,由于其保存条件、潮湿、污染等诸多因素的影响,在拓片复制成为数字图像后,由于对比度不同、噪声大、背景强度增强等原因,前景和背景很难被分开。除了低对比度、背景噪声往往还引入纹理石外,还有纸质材料的老化,因此,从古碑帖原图像中提取干净的汉字是一个具有挑战性的工作。但上述也是进行任何进一步的自动文档图像分析如版面分析、字符识别等的关键步骤等。拓片图像采集过程中的亮度分布不均匀,会影响图像的质量。[0003]为了提高字符切分的质量,发明人研究了大量的方法和技术,其中最重要的预处理步骤是文本二值化,将文档图像从灰度或彩色图像转换成二值图像,在背景信息由白色像素表示、前景由黑色像素表示的基础上,分离古代文档图像的前景和背景。一种最简单且高效的图像处理技术可以用来分离文档图像的前景和背景层,就是阈值化,许多可归为全局和局部阈值算法的阈值技术,多阈值方法和自适应阈值技术。当图像在背景和前景上具有相同的对比度时,全局阈值是首选的,它们的光照均匀,目标和背景相差很大。局部自适应阈值用于恢复文档图像中的前景像素。一般来说,对退化碑帖图像选择一个算法是一个非常困难的过程。由于存在复杂的退化,许多实验结果表明,传统的弱目标图像光照均匀处理方法存在着目标与背景分离不完整或目标丢失、处理效率低等缺点。因此发明人提出了一种新的自适应算法来处理拓片图像,即使用盲无参考图像空间质量评估利用自然图像统计NSS模型框架局部归一化亮度系数,利用模型参数量化的“非自然”。为了正确分割低对比度彩色图像,采用形态学Top-Hat算子与圆盘形结构元素和自适应像素,利用拓片结构之间的差异的红色分量。为了降低噪声,将中值滤波应用于阴影校正图像。[0004]—般来说,退化的文档图像是由于背景噪声以及对比度和亮度的变异产生的。阴影退化的文档图像更常见,因为相机文档更容易受到光照变化的影响。现有很多算法,试图在扫描文本文档时分割前景和背景,但阈值是某种形式和另一区域的标准的工具,如Bernsen的自适应阈值是根据每个像素的领域来估计。使用局部最大值和最小值来构建局部对比度图像。然后,在该图像上应用滑动窗口来确定局部阈值。现有技术提出了一种基于相位来分割古代文档图像二值化模型,开发了一个真实的生成工具,称为PhaseGT,来简化和加快真正古代文档图像的生成过程。最近,现有技术中还提出了一种主动轮廓演化算法,根据文档图像的内在几何测量、图像对比度,即由图像的局部最大值和最小值,用于自动生成我们的活动轮廓模型,初始化图像;最后,平均阈值也可以产生并最终二值化。正如发明人所观察到的,大多数二值化方法是基于对字符和背景之间灰度等级的直观观察,而不管退化的文档图像的自适应选择阈值。为了克服这些困难,本方案提出了一种自适应的方法,应用不同的方法从退化的文档图像来分割字符。发明内容[0005]为解决上述现有难题,保留汉字的笔画特征同时增强字符细节,针对退化的历史碑帖图像,本发明提出了一种基于背景估计的非均匀光照退化的图像二值化自适应分割算法,所提出的方法的新颖之处在于找到一个基于盲无参考图像空间质量评估的最佳背景估计,该方法分为四个步骤:(1采用中值滤波预处理;(2提取红色成分;(3形态学运算以寻找最佳背景估计;(4Otsu分割二值图像。实验结果表明,该方法能够对退化汉字进行更精确的字符分割。[0006]本发明采用的技术方案如下:一种自适应的汉字碑帖图像二值化分割算法,使用彩色图像开发了一种鲁棒算法,用于从背景中分割中文拓片图像,包括如下步骤:[0007]1使用中值滤波重新处理,中值滤波允许大量高空间频率细节通过,同时非常有效地消除平滑邻域中小于一半像素的图像上的噪声;[0008]2提取红色成分;[0009]3形态学图像处理操作,以便如果发现最小BRISQUE,则可以找出盘的最佳直径Thr*;[0010]4使用Otsu的分割二值图像。[0011]进一步地,步骤3所述的形态学为数学形态学,利用数学形态学进行图像处理的基本思想是利用具有一定形状的结构元素具有一定结构形状的基本元素,如矩形、圆形或菱形等来检测目标图像,通过对图像目标区域和填充方法中结构元素的有效性进行分析,得到图像形态和结构的相关信息,并利用它们实现图像分析和识别的目的。[0012]进一步地,所述结构元素是形态学图像处理的一个关键点,不同的结构元素决定了图像中各种几何信息的分析和处理,也决定了数据转换过程中的计算量,因此对结构元素的分析是图像边缘检测的重要内容;结构元素的大小和结构形状都会影响图像边缘检测;小尺寸结构元素具有较弱的去噪能力,但它们可以检测精确的边缘细节;大尺寸结构元素具有更强的去噪能力,但检测到的边缘更加粗糙;更重要的是,不同形状的结构元素对不同图像的边缘有不同的处理能力;其中,灰度图像可以看作是一组二维点,膨胀和腐蚀操作可以表示如下:[0015]Top-hat算法可以根据开放操作和闭合操作的不同组件分为Top-hat算法和Bot-hat算法,将Top-hat算法应用于图像并表示为TH:[0017]将Top-hat算法应用于图像并表示为BH:[0018]BHX,y=f〇S_fX,y4[0019]在方程中,fx,y是原始灰度图像,Sx,y是结构元素,Top-hat变换通过原始图像与其打开操作之间的差异来提取前景信息,而Bot-hat变换通过原始图像与其闭合操作之间的差异来抑制背景信息。[0020]进一步地,步骤3所述的BRISQUE是一种基于空间图像统计特征的通用无参考图像质量评估算法,该算法基于以下理论前提:自然图像具有一定的规律性,人眼的视觉特征随着规律演变,在现有技术中,AnishMittal和其他研究人员发现,空间域中自然图像的归一化亮度系数具有统计特性并符合单位高斯分布。此功能受图像失真的影响,不同的失真对分配有不同的影响。基于以上研究成果,我们提出了一种基于空间域统计特征的BRISQUE无参考图像质量评估算法。对于给定的尺寸为M*N的灰度图像,每个像素的亮度归一化系数满足如下:[0024]式中:i=1,2,…,M;j=1,2,…,N;c是常数,C=I;K=L=3;iM=…1,2,,;jN=…l,2,,;cisa3〇118七3111:,〇=1;1=1^=3;4;[,」)和0;[,」)是平均值和标准差;(0={ω}kjIk=-K,-K+1,…,K,L=-L,-L+1,…,L是—维尚斯方程的米样和标准化;BRISQUE算法使用亮度归一化系数作为质量相关特征来评估图像质量。与其他非参考质量评估相比,图像特征的使用消除了对各种复杂变换的需求。因此,该算法在精度相近的前提下具有计算简单,节省时间的优点。另一方面,图像亮度的去相关处理忽略了亮度对测试图像质量的影响。[0025]进一步地,步骤4使用Otsu的分割二值图像中包括二值化分割算法,二值化分割算法中包括Jaccard系数、假阳性率FPR和假阴性率FNR三个参数进行分层测量,假阳性率FPR显示欠分割程度,假阴性率FNR显示过度分割程度;Jaccard系数测量有限样本集之间的相似性,并且定义为相交的大小除以样本集的并集的大小,对于二值图像,计算二值图像A和B的交除以A和B的并,Jaccard系数可以使用以下公式计算:[[0027]假阳性率FPR和假阴性率FNR定义如下:[0030]其中FP是误报的数量,真实图像中的白色和二值化图像中的黑色,FN是假阴性的[[数量,TN是真阴性的数量,N=FP+TN是阴性的总数量。[0031]采用上述方案本发明取得有益效果如下:本发明保留汉字的笔画特征同时增强字符细节,针对退化的历史碑帖图像,提出了一种基于背景估计的非均匀光照退化的图像二值化自适应分割算法,所提出的方法的新颖之处在于找到一个基于盲无参考图像空间质量评估的最佳背景估计,该方法分为四个步骤:(1采用中值滤波预处理;(2提取红色成分;(3形态学运算以寻找最佳背景估计;⑷Otsu分割二值图像。实验结果表明,该方法能够对退化汉字进行更精确的字符分割。附图说明[0032][0033]图1为本发明方法流程图;[0034]图2为常规中国碑帖图像的拓片图像;[0035]图3是图2的直方图;[0036]图4是图2的目标函数值图;[0037]图5是图像分割结果对照图。具体实施方式[0038]下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。[0039]实施例,本实施例一种自适应的汉字碑帖图像二值化分割算法,使用彩色图像开发了一种鲁棒算法,用于从背景中分割中文拓片图像,包括如下步骤:[0040]1使用中值滤波重新处理,中值滤波允许大量高空间频率细节通过,同时非常有效地消除平滑邻域中小于一半像素的图像上的噪声;[0041]2提取红色成分;[0042]3形态学图像处理操作,以便如果发现最小BRISQUE,则可以找出盘的最佳直径Thr氺;[0043]4使用Otsu的分割二值图像。[0044]所提出的分割方法的流程图如附图1所示。[0045]实验分析和结果,[0046]为了评估和测试所提出的方法,本方案使用来自加利福尼亚大学伯克利分校东亚图书馆的中文石皁巾占图像的数据库http:ucblibrary4.berkeley.edu:8088xtf3search?rmode=stonerubbingsidentifier=title=name=text=date=startdate=15subject=height=width=material=script=enc_provenance=。本方案用Jaccard相似系数,FPR假阳性率和FNR假阴性率)与经典的Otsu算法相比,来评估本方案的系统在性能和质量上的表现。如图2-4所示,常规中国碑帖图像的拓片图像,拓片图像偏暗,直方图显示图像对比度很低,历史文档图像质量下降。在估计前景之前,有必要应用中值滤波器去除噪音。中值滤波器依次考虑图像中的每个像素并查看其领域,以确定它是否代表其领域。该邻域被选为3X3像素的正方形。与图像大小相比,这是一个非常小的邻域,最终的图像大小为371X1260像素。之后,在Matlab中使用函数imopen,在估计前景上执行形态学开运算。[0047]将上述介绍的二值化方法应用于我们的测试集合,该测试集合由具有几种降级和结构复杂性的旧中文碑帖文档图像组成。我们在本实施例中介绍将以前方法应用于我们收藏的图像的结果。对于客观评价,我们使用Jaccard系数,假阳性率FPR和假阴性率FNR三个参数进行分层测量,FPR显示欠分割程度,FNR显示过度分割程度。Jaccard系数测量有限样本集之间的相似性,并且定义为相交的大小除以样本集的并集的大小,对于二值图像,它计算二值图像A和B的交除以A和B的并。Jaccard系数可以使用以下公式计算:I[0049]假阳性率FPR和假阴性率FNR定义如下:[0052]其中FP是误报的数量,真实图像中的白色和二值化图像中的黑色,FN是假阴性的数量,TN是真阴性的数量,N=FP+TN是阴性的总数量。[0053]分割算法的性能如表1中所示。[0054]表1分割的定量测量结果[0057]图5中⑹是使用本方案自适应分割算法获得的汉字分割结果,图5中(c是通过获得的Ostu’分割算法得到的结果,图5中⑹是基本真实二值图像,指的是手动消除所有噪声和劣化因子的实际二值图像。在表1中,可以注意到低对比度文档图像的最佳结果是通过本方案方法获得的。在表1中,Jaccard系数显着高于Ostu方法。OTSU的全局阈值方法错分了一些文本像素,同时错误地将黑暗背景像素归类为文本像素。实验结果表明,本方案所提出的背景消除算法比Ostu方法对于各种中文碑帖图像可以实现更精确的修复。对于低对比度的中国碑帖图像,它表现良好。[0058]但是,由于阈值是全局应用的,对于某些弱笔迹的阈值,导致笔迹有可能被破坏。[0059]综上,拓片获得的中国碑帖图像具有模糊细节多,效果差等特点,因此在传统的处理过程中可能会丢失更多细节。预处理是图像处理中的一个重要阶段,特别是在中国古籍图像分割应用的情况下。一种高效的图像预处理算法将提高分割算法的准确性并减少错误分类。本发明提出了一种针对退化的碑帖图像二值化的自适应分割算法。主观和客观的评价方法被用来判断我们算法的效率。实验结果表明,通过形态学操作估计图像背景是自适应选择以找到磁盘的最佳直径。但是,由于我们的背景估计算法没有考虑不同场景中的照度关系,所以在场景明显变化的情况下,有可能引入其他应用的轻微闪烁。将来,该方法将在OCR光学字符识别应用程序中进行测试,以测试所提方法在降级文档中的可读性。[0060]另外,本发明获得中国国家自然科学基金(61472173,江西省自然科学基金20161BAB202042,江西省教委资助项目(GJJ151134的大力支持。[0061]以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

权利要求:1.一种自适应的汉字碑帖图像二值化分割算法,其特征在于,使用彩色图像开发了一种鲁棒算法,用于从背景中分割中文拓片图像,包括如下步骤:1使用中值滤波重新处理,中值滤波允许大量高空间频率细节通过,同时非常有效地消除平滑邻域中小于一半像素的图像上的噪声;2提取红色成分;3形态学图像处理操作,以便如果发现最小BRISQUE,则可以找出盘的最佳直径Thr*;4使用Otsu的分割二值图像。2.根据权利要求1所述的一种自适应的汉字碑帖图像二值化分割算法,其特征在于,步骤3所述的形态学为数学形态学,利用数学形态学进行图像处理的基本思想是利用具有一定形状的结构元素来检测目标图像,通过对图像目标区域和填充方法中结构元素的有效性进行分析,得到图像形态和结构的相关信息,并利用它们实现图像分析和识别的目的。3.根据权利要求2所述的一种自适应的汉字碑帖图像二值化分割算法,其特征在于,所述结构元素是形态学图像处理的一个关键点,不同的结构元素决定了图像中各种几何信息的分析和处理,也决定了数据转换过程中的计算量,因此对结构元素的分析是图像边缘检测的重要内容;结构元素的大小和结构形状都会影响图像边缘检测;小尺寸结构元素具有较弱的去噪能力,但它们可以检测精确的边缘细节;大尺寸结构元素具有更强的去噪能力,但检测到的边缘更加粗糙;更重要的是,不同形状的结构元素对不同图像的边缘有不同的处理能力;其中,灰度图像可以看作是一组二维点,膨胀和腐蚀操作可以表示如下:"::»CfΘsX,y=min{gx-k,y-1Ik,Ies}2Top-hat算法可以根据开放操作和闭合操作的不同组件分为Top-hat算法和Bot-hat算法,将Top-hat算法应用于图像并表示为TH:将Top-hat算法应用于图像并表不为BH:BHx,y=fθS-fx,y⑷在方程中,fx,y是原始灰度图像,Sx,y是结构元素,Top-hat变换通过原始图像与其打开操作之间的差异来提取前景信息,而Bot-hat变换通过原始图像与其闭合操作之间的差异来抑制背景信息。4.根据权利要求1所述的一种自适应的汉字碑帖图像二值化分割算法,其特征在于,步骤3所述的BRISQUE是一种基于空间图像统计特征的通用无参考图像质量评估算法,对于给定的尺寸为M*N的灰度图像,每个像素的亮度归一化系数满足如下:式中:i=l,2,…,M;j=l,2,…,N;c是常数,c=l;K=L=3;iM=…1,2,…,;jN=…l,2,.",;cisa3〇118七3111:,〇=1;1=1^=3;4;[,」)和〇;[,」)是平均值和标准差;(〇={〇}1^Ik=-K,-K+1,…,K,L=-L,-L+l,…,L是二维高斯方程的采样和标准化;BRISQUE算法使用亮度归一化系数作为质量相关特征来评估图像质量。5.根据权利要求1所述的一种自适应的汉字碑帖图像二值化分割算法,其特征在于,步骤4使用Otsu的分割二值图像中包括二值化分割算法,二值化分割算法中包括Jaccard系数、假阳性率FPR和假阴性率FNR三个参数进行分层测量,假阳性率FPR显示欠分割程度,假阴性率FNR显示过度分割程度;Jaccard系数测量有限样本集之间的相似性,并且定义为相交的大小除以样本集的并集的大小,对于二值图像,计算二值图像A和B的交除以A和B的并,Jaccard系数可以使用以下公式计算:⑻假阳性率FPR和假阴性率FNR定义如下:其中FP是误报的数量,真实图像中的白色和二值化图像中的黑色,FN是假阴性的数量,TN是真阴性的数量,N=FP+TN是阴性的总数量。

百度查询: 南昌工程学院 一种自适应的汉字碑帖图像二值化分割方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。