买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:盛视科技股份有限公司
摘要:本发明公开了一种基于字词切分的长条文本行识别方法,包括以下步骤:(A)对待识别的证件图像进行文本行检测,获得文本行检测结果;(B)对生成的每个文本行检测结果进行裁剪,获得文本行图像,判断是否需要进行字词检测,判断为需要则进行字词检测,并对图像进行切分,判断为不需要则进行下一步骤;(C)若文本行图像有进行切分,对识别结果进行拼接后输出,若文本行图像未进行切分,进行字符识别,直接输出算法结果。
主权项:1.一种基于字词切分的长条文本行识别方法,其特征在于,包括以下步骤:A对待识别的证件图像进行文本行检测,获得文本行检测结果,文本行的检测算法采用yolov8算法,对证件图像I进行特征编码,获得增强后的图像特征,训练时将图像特征和标注的文本行坐标信息送入到损失函数中进行loss计算,得到的loss计算结果进行反向优化算法效果,预测文本行坐标位置的时候去掉损失函数,进行文本行结果预测;特征提取的公式为I1=encodeI,其中,encode为编码;损失函数的公式为loss=lossbox+losswiou+losscls+lossobj其中,lossbox为坐标框回归损失,losswiou为目标横坐标损失,losscls为类别损失函数,lossobj为目标分类损失;所述步骤A包括子步骤:坐标框回归损失采用SIOU损失函数,公式为 其中,B为预测获得的坐标框,BGT为标签标注的坐标框,∩为两个坐标框的交集,∪为两个坐标框的交集,|.|为取绝对值,Δ为预测标签和标注标签之间的角度损失,Ω为形状损失,losswiou为目标横坐标损失,对目标结果和预测结果坐标框的宽做距离损失计算,其中,x1,y1和x2,y2分别是算法预测的文本行坐标框的左上顶点和右下顶点,x1’,y1’和x2’,y2’分别是标签标注文本行的真实坐标框的左上顶点和右下顶点, 其中,·表示乘法,losscls为类别损失函数,用于判断目标类别,使用交叉熵损失函数,公式为 n为检测目标数量,yi是对应标签,xi代表类别置信度,i为第i个图像,0≤i≤n,其中,lossobj为目标分类损失,计算获得目标的损失,此处的损失结果计算使用交叉熵损失函数;B对生成的每个文本行检测结果进行裁剪,获得文本行图像,判断是否需要进行字词检测,判断为需要则进行字词检测,并对图像进行切分,判断为不需要则进行下一步骤;所述步骤B包括子步骤:对需要切分的文本行图像进行切分,对每个词进行坐标循环,判断起始位置横坐标和当前词的右下点横坐标的宽度是否超过crnn的训练图像尺寸预设宽度,若前一个词的右下横坐标和起始位置横坐标的宽度小于预设宽度,而当前词的右下横坐标和起始位置横坐标的宽度大于或等于预设宽度,获得第一个切分的横坐标,对文本行图像进行切分,并将起始位置横坐标设置为当前词的右下横坐标值,继续对词坐标进行循环,获得后续的切分坐标位置,对切分剩下的文本行图像继续进行切分;C若文本行图像有进行切分,对识别结果进行拼接后输出,若文本行图像未进行切分,进行字符识别,直接输出算法结果。
全文数据:
权利要求:
百度查询: 盛视科技股份有限公司 基于字词切分的长条文本行识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。