【发明公布】一种基于字根的零样本汉字识别方法_西北工业大学_202011455952.4

导航：龙图腾网> 最新专利技术> 一种基于字根的零样本汉字识别方法_西北工业大学_202011455952.4

申请/专利权人：西北工业大学

申请日：2020-12-10

公开（公告）日：2021-03-16

公开（公告）号：CN112508108A

主分类号：G06K9/62(20060101)

分类号：G06K9/62(20060101);G06K9/32(20060101);G06N3/04(20060101);G06N3/08(20060101)

优先权：

专利状态码：有效-授权

法律状态：2024.01.26#授权;2021.04.02#实质审查的生效;2021.03.16#公开

摘要：本发明公开了一种基于字根的零样本汉字识别方法，首先在CTW汉字数据集的基础上构建训练集和测试集；然后构建汉字识别嵌入模型，该模型由两个并行分支组成，包括由CNN模型构成的图像处理分支和由循环神经网络构成的属性信息处理分支；采用训练集图像对汉字识别嵌入模型进行训练，得到最终模型；再采用测试集对模型进行测试。本发明大大降低了对训练数据的要求，且符合自然场景下文本数据分布的规律，并取得了可行的识别率，为自然场景下的汉字识别提供了一种新思路。

主权项：1.一种基于字根的零样本汉字识别方法，其特征在于，包括以下步骤：步骤1：构建训练集和测试集；步骤1-1：将CTW汉字数据集中的只包含单个汉字的图像按照同一个汉字出现的频率从高到低进行排序，取出现频率排序在前A1的汉字对应的只包含单个汉字的图像为训练集；出现频率排序在前A1个之后取A2个汉字对应的只包含单个汉字的图像为测试集；步骤1-2：将训练集和测试集中图像包含的汉字作为类别标签；步骤1-3：采集训练集和测试集中图像包含的汉字的字根，并对所有字根进行编码，每个字根有唯一的编码；步骤2：构建文字识别嵌入模型；文字识别嵌入模型包括两个并行分支，一个是图像处理分支，另一个是属性信息处理分支；所述图像处理分支由CNN模型构成，输入为只包含单个汉字的图像，输出为视觉特征向量，用φIi表示，Ii为第i幅只包含单个汉字的图像；所述属性信息处理分支由循环神经网络构成；对训练集和测试集中图像包含的任一汉字，采集该汉字的字根，再用步骤1的字根编码方法将该汉字变为字根编码组合；使用递归神经网络，将训练集和测试集中图像包含的所有汉字的字根编码组合再次编码为固定长度语义向量；循环神经网络的输入为固定长度语义向量，输出为语义特征向量，输出表示如下：其中，表示前向最终隐藏状态，表示反向的最终隐藏状态，f·是ReLU激活函数，是的权重，是的权重；步骤3：定义目标函数为最小化LW1，W2：其中，N为训练集中图像数量；步骤4：使用训练集对文字识别嵌入模型进行训练，当目标函数最小时结束，得到最终的文字识别嵌入模型；步骤5：将测试集中的图像输入最终的文字识别嵌入模型，得到输入图像的视觉特征向量和语义特征向量，采用最近邻算法，找到与输入图像的视觉特征向量最接近的语义特征向量，然后得到该语义特征向量对应的类别标签，即为输入图像的类别标签；采用公式表示为：其中，Labeli为类别标签，D·是最近邻算法的距离函数，v是测试集中的类别标签。

全文数据：

权利要求：

百度查询：西北工业大学一种基于字根的零样本汉字识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种电解水制氢异质结催化剂的制备及其应用_昆明理工大学_202410334678.7

下一篇：乙烷混合液烃萃取精馏脱碳系统及方法_长庆工程设计有限公司_202211655444.X

相关技术

一种电解水制氢异质结催化剂的制备及其应用_昆明理工大学_202410334678.7

乙烷混合液烃萃取精馏脱碳系统及方法_长庆工程设计有限公司_202211655444.X

一种微型电机防水密封检测装置_全南县超亚科技有限公司_202410179550.8

一种集成传感器的封装结构和封装方法_合肥中航天成电子科技有限公司_202410654911.X

一种基于遥测信号辅助的干涉测量带宽综合方法_北京航天飞行控制中心_202410175613.2

一种悬索桥用超硬复合板及其制备工艺_德阳天元重工股份有限公司_202410240910.0

一种隔振器_沈阳航空航天大学_202410227503.6

用于提供更新的机器学习算法的系统和方法_西门子医疗有限公司_202311623232.8

交互控制方法、装置及电子设备_网易(杭州)网络有限公司_202410176251.9

可交联聚烯烃组合物_SABIC环球技术有限责任公司_202280072879.3

一种红茶的制作方法_安化县亮山茶业有限公司_202310583344.9

一种ORB特征匹配融合AMCL的机器人重定位方法_重庆邮电大学_202410163891.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】一种基于字根的零样本汉字识别方法_西北工业大学_202011455952.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务