首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于字频的文档图像分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:湖北微模式科技发展有限公司

摘要:本发明公开一种基于字频的文档图像分类方法,涉及文档图像分类技术领域,包括文档图像注册和未知类型的待分类文档图像分类两个步骤。本发明每种文档图像只需要一张样本(即示例文档图像)即可完成文档图像注册,特别的,对于表格类型的文档图像,只需要一张空白的表格即可;提升对各种原因造成的文本行检测算法的错误(误报和漏报)的鲁棒性;提升对各种原因造成的文本行识别算法的错误(误识和漏识)的鲁棒性;能适应增加新的文档图像类型。

主权项:1.一种基于字频的文档图像分类方法,其特征在于,包括文档图像注册和未知类型的待分类文档图像分类两个步骤;文档图像注册包括以下步骤:步骤10,对每一类的文档图像获得一幅示例文档图像,组成示例文档图像集,为第类文档图像的示例文档图像;步骤11,使用示例文档图像统计所有文档图像的标题字符集;步骤12,统计每一类文档图像的注册标题字频;步骤13,当有新增的文档图像类型时,更新所有文档图像的标题字符集和每一类文档图像的注册标题字频;步骤14,使用示例文档图像统计所有文档图像的键字符集;步骤15,统计每一类文档图像的注册键字频;步骤16,当有新增的文档图像类型时,更新所有文档图像的键字符集和每一类文档图像的注册键字频;未知类型的待分类文档图像分类包括以下步骤:步骤20,对待分类文档图像进行文本行检测与文本行识别;步骤21,把文本行检测结果分为标题和正文两个类型;步骤22,获得待分类文档图像的标题字频;步骤23,获得待分类文档图像的键字频;步骤24,基于注册标题字频和待分类文档图像的标题字频之间的余弦距离、注册键字频和待分类文档图像的键字频之间的余弦距离来计算分数,并基于分数分析得到文档图像分类的类型标签结果;步骤24采用以下逻辑进行分类:设定max_score=0,max_id=-1;逐一遍历N类文档图像;对于第i类文档图像,如果待分类文档图像和第i类文档图像都具有标题,则把标题相似度score_t赋值为待分类文档图像的标题字频u和第i类的注册标题字频的余弦距离,否则score_t赋值为0;如果待分类文档图像和第i类文档图像都具有键,则把键相似度score_k赋值为待分类文档图像的键字频v和第i类的注册键字频的余弦距离;分四种情况计算待分类文档图像和第i类文档图像的相似度score,如果score_t0并且score_k0则score=score_t+score_k2,如果score_t0并且score_k==0则score=score_t,如果score_t==0并且score_k0则score=score_k,如果score_t==0并且score_k==0则score=0;如果待分类文档图像和第i类文档图像的相似度score大于max_score,则更新max_score为score,并记录当前类别序号max_id=i;迭代处理每一类文档图像,直至得到待分类文档图像的类别。

全文数据:

权利要求:

百度查询: 湖北微模式科技发展有限公司 一种基于字频的文档图像分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术