Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

医药影印件的信息提取方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海海事大学

摘要:本发明公开了一种医药影印件的信息提取方法和系统,方法包含:将医药影印件文件转换成待识别电子文件;采用光学字符识别方法对所述待识别电子文件进行字符识别,得到电子文档和特征信息;根据所述特征信息对所述电子文档进行模糊分类;对经模糊分类处理的电子文档根据其所属的类别进行信息提取,得到初步提取结果;对初步提取结果进行纠错处理得到有效的电子文档;根据预设信息提取条件,对有效的电子文档进行第二次信息提取,得到关键信息;根据所述关键信息,对经有效的电子文档进行分类,得到分类结果,本发明可以实现在显著的减少人工成本的情况下具有更加精确的文字识别准确率,且能根据文本的特征自动识别并归类,达到统一化处理的目的。

主权项:1.一种医药影印件的信息提取方法,其特征在于,包含:步骤S1、将医药影印件文件转换成待识别电子文件;步骤S2、采用光学字符识别方法对所述待识别电子文件进行字符识别,得到电子文档和特征信息;步骤S3、根据所述特征信息对所述电子文档进行模糊分类;所述步骤S3包括:步骤S3.1、选择所述特征信息中的位于待识别电子文档的特定位置的标题作为第一判断依据;根据所述第一判断依据对所述待识别电子文件进行模糊分类;若采用所述第一判断依据对所述待识别电子文件进行模糊分类操作失败,则进入步骤S3.2;步骤S3.2、选择在所述医药影印件文件预先提取的字段作为第二判断依据;根据所述第二判断依据对所述待识别电子文件进行模糊分类;步骤S4、对经模糊分类处理的电子文档根据其所属的类别进行第一次信息提取,得到初步提取结果;步骤S5、对所述初步提取结果进行纠错处理得到有效的电子文档;所述步骤S5包括:步骤S5.1、采用语言模型对所述电子文档进行文字拼写错误纠正,并输出第一纠正电子文档;步骤S5.2、采用seq2seq模型对所述第一纠正电子文档进行语法错误纠正,得到第二纠正电子文档;步骤S5.3、采用所述语言模型对所述第二纠正电子文档进行语句检查,得到所述的有效的电子文档;步骤S6、根据预设信息提取条件,对所述有效的电子文档进行第二次信息提取,得到关键信息;所述步骤S6包括:采用预先训练好的第二神经网络对经所述有效的电子文档进行第二次信息提取,得到所述关键信息;所述第二神经网络包括卷积神经网络、循环神经网络、单隐藏层前馈神经网络和条件随机场;所述卷积神经网络用于根据接收到的所述有效的电子文档,将该所述有效的电子文档中的每一句子进行编码,得到所有所述句子的句子编码向量;所述循环神经网络用于根据接收到的每一所述句子编码向量提取与该句子对应的上下文句子编码向量,形成上下文句子编码向量序列;所述单隐藏层前馈神经网络用于根据上下文句子编码向量序列转换为与所述句子相对应的概率向量;所述条件随机场用于根据所述概率向量计算出每个待识别句子所属标签的概率值,概率值最高的标签为所述关键信息;步骤S7、根据所述关键信息,对经所述有效的电子文档进行分类,得到分类结果;所述步骤S7包括:所述分类结果包括以下几类:药品说明书类、药品生产许可证类、药品GMP证书类、药品再注册批件类和药品进口许可证类。

全文数据:

权利要求:

百度查询: 上海海事大学 医药影印件的信息提取方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。