首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于字根的中文文字识别方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华侨大学

摘要:本发明提供了一种基于字根的中文文字识别方法及系统,涉及文字识别技术领域,构建常用字字根集;获取包括有待识别汉字的待识别汉字图像;将待识别汉字图像输入到汉字识别模型中,识别待识别汉字图像中存在的字根,并根据待识别汉字图像中存在的字根与常用字字根集确定待识别汉字;本发明基于MAML算法以及ACE算法构建训练得到汉字识别模型,相较于传统的基于字根配合制定结构标签策略的方法,本发明所提出的方法可以减少一些复杂的处理步骤的同时,保证模型识别的准确率,使得模型具备了小样本学习以及不需要汉字结构标签便可准确识别的能力,并达到了高效识别且端化的目的。

主权项:1.一种基于字根的中文文字识别方法,其特征在于,所述中文文字识别方法包括以下步骤:构建常用字字根集;所述常用字字根集中包括若干常用字和各常用字对应的字根集;获取待识别汉字图像;所述待识别汉字图像中包括待识别汉字;将所述待识别汉字图像输入到汉字识别模型中,确定并输出所述待识别汉字;所述汉字识别模型为基于MAML算法以及ACE算法训练得到的,所述汉字识别模型用于识别所述待识别汉字图像中存在的字根,并根据所述待识别汉字图像中存在的字根与所述常用字字根集确定所述待识别汉字;在将所述待识别汉字图像输入到汉字识别模型中,确定并输出所述待识别汉字之前,所述的基于字根的中文文字识别方法还包括:获取若干类单字图像;单字图像总数为N1+N2;基于N1个所述单字图像,建立若干个任务;所述若干个任务用于构建训练任务集;基于N2个所述单字图像,构建单个任务;所述单个任务用于构建测试任务集;基于MAML算法,构建包括若干个任务的训练任务集和单个任务的测试任务集;所述任务包括训练资料和测试资料;所述训练资料和所述测试资料均包括若干个汉字及每一汉字对应的字根集;利用所述训练任务集训练得到一初始化模型;所述初始化模型对所述训练任务集中任一汉字均能识别;利用所述测试任务集对所述初始化模型进行训练,得到汉字识别模型;在汉字识别模型训练阶段,根据ACE损失函数调整汉字识别模型的参数;根据所述待识别汉字图像中存在的字根与所述常用字字根集确定所述待识别汉字,具体包括:针对所述待识别汉字图像中存在的每一不重复字根,计算所述字根在所述待识别汉字图像中出现的次数;针对所述常用字字根集中的每一常用字,计算所述常用字各字根在所述常用字中出现的次数;根据所述字根在所述待识别汉字图像中出现的次数和所述常用字各字根在所述常用字中出现的次数,确定所述待识别汉字。

全文数据:

权利要求:

百度查询: 华侨大学 一种基于字根的中文文字识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。