首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

工程图文本检测识别方法、装置及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:清华大学

摘要:本发明实施例公开一种工程图文本检测识别方法、装置及系统,方法包括:将待检测工程图切分成多个图像分片;基于候选网络的文本检测模型对图像分片中的水平方向文本进行检测,得到第一文本区域集合;基于多尺度全卷积的文本检测模型对图像分片中的竖直和或倾斜方向文本进行检测,得到第二文本区域集合;计算第一文本区域集合中第一文本区域与第二文本区域集合中第二文本区域之间的交并比;将交并比大于预设交并比阈值的第一文本区域和第二文本区域中预测分数低的文本区域进行去除;根据由文本区域上指定点的坐标确定的旋转角度,对去除处理后的文本区域进行方向纠正;利用非极大值抑制算法对方向纠正后的文本区域进行去重;将图像分片进行合并。

主权项:1.一种工程图文本检测识别方法,其特征在于,所述方法包括:将待检测工程图切分成多个图像分片;基于候选网络的文本检测模型对所述图像分片中的水平方向文本进行检测,得到第一文本区域集合;基于多尺度全卷积的文本检测模型对所述图像分片中的竖直和或倾斜方向文本进行检测,得到第二文本区域集合;针对同一个图像分片,计算所述第一文本区域集合中第一文本区域与所述第二文本区域集合中第二文本区域之间的交并比;将交并比大于预设交并比阈值的第一文本区域和第二文本区域中预测分数低的文本区域进行去除;根据由文本区域上指定点的坐标确定的旋转角度,对去除处理后的文本区域进行方向纠正;利用非极大值抑制算法对方向纠正后的文本区域进行去重;将包含去重处理后的文本区域的图像分片进行合并,获得包含文本检测结果的工程图;利用文本识别模型对所述工程图的文本区域进行文本识别,获得文本识别结果;若所述文本识别结果中存在字符识别置信度分数低于预设分数阈值的字符,则将所述字符确定为待纠错字符;在基于工程领域词库生成的BK树中查找与目标词语之间的相似度满足预设相似度条件的至少一个候选词;所述目标词语为所述文本识别结果中所述待纠错字符所属的词语;对所述候选词和所述目标词语进行正则匹配,确定所述候选词中与所述待纠错字符对应的候选字符;分别获取所述待纠错字符和所述候选字符的中文字符IDS表征树,所述IDS为表意文字描述序列;根据所述待纠错字符的所述中文字符IDS表征树生成所述待纠错字符的字形笔画表征的第一字符串,以及根据所述候选字符的所述中文字符IDS表征树生成所述候选字符的字形笔画表征的第二字符串;根据如下公式计算所述待纠错字符与所述候选字符的IDS相似度CharacterSimilarity:CharacterSimilarity=-,其中,为所述第一字符串与所述第二字符串之间的编辑距离,为所述第一字符串和所述第二字符串的长度中最大值;若所述IDS相似度大于预设字形相似度阈值,则将所述候选字符替换所述待纠错字符。

全文数据:

权利要求:

百度查询: 清华大学 工程图文本检测识别方法、装置及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。