买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东南大学
摘要:本发明公开了一种面向医疗图像的光学字符识别方法,方法如下:首先训练一个卷积神经网络模型,对于给定医学图像进行图像朝向的识别,并按图像的朝向进行旋转,然后将旋转后的图像分为文档类和场景类,文档类如出院小结、门诊病例等图像或扫描件,场景类如药品包装照片。根据图像类别使用针对性的方法进行文本检测,识别出包含医学文本的图像部分,形成文本检测框。再使用基于Seq2Seq的文本识别模型,根据文本检测框识别并提取出文本内容。最后基于Transformer的关键信息抽取模型,捕捉上下文语义信息和图像的空间结构信息,推断出不同文本检测框内文本的语义关系和层次结构,组合语义相关的文本进行结构化的输出,从而完成医疗图像的光学字符识别任务。
主权项:1.一种面向医疗图像的光学字符识别方法,其特征在于,该方法包括如下步骤:步骤1:首先对图像进行处理,给定医疗图像或文档的扫描副本作为输入,这些图像包括病人的出院小结、门诊档案、体检结论、药品图片,对输入图片进行预处理,包括调整大小、裁剪或填充操作,以确保图像的一致性和易处理性,利用卷积神经网络模型预测并调整图像的朝向,得到矫正后的图像,在进行以下步骤之前,对输入图像进行分类,步骤2:其次,对分类后的图像进行文本检测,对于文档类的图像,使用二值化算法对将分类后的图像进行处理得到二值图,二值图经过连通区域分析得到文本检测框,对于场景类的图像,使用ResNet架构的神经网络提取文字区域坐标,记录文本检测框信息;步骤3:然后在步骤2中得到的文字区域的检测框信息的基础上,进行文本识别,将输入图像分割为小块,这些小块被转换为一维的图像嵌入,对于每个小块将其图像嵌入与其对应的位置嵌入拼接作为Seq2Seq模型的输入,该模型经过端到端的训练,以预测字符序列,获得识别文本,步骤4:最后,基于步骤2中的位置信息和步骤3中获得的识别文本,融合文本、位置、视觉信息,进行关键信息抽取,实现结构化文本的输出,基于步骤3中获得的识别文本获取文本嵌入,基于步骤2中的检测框获取位置嵌入,提取输入图像的特征信息并形成视觉嵌入,将文本、位置、视觉的嵌入信息组合作为文本检测模型的输入,进行上下文建模和特征提取,推断出文本的语义和层次结构,以及元素之间的关系,组合相关文本,进行结构化文本的输出,要具体化的从而完成医学文本识别任务。
全文数据:
权利要求:
百度查询: 东南大学 一种面向医疗图像的光学字符识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。