【发明授权】一种基于深度学习和部件拼接的中文字形及字库生成方法_北京大学_201911069573.9

导航：龙图腾网> 最新专利技术> 一种基于深度学习和部件拼接的中文字形及字库生成方法_北京大学_201911069573.9

申请/专利权人：北京大学

申请日：2019-11-05

公开（公告）日：2024-02-27

公开（公告）号：CN112784531B

主分类号：G06F40/109

分类号：G06F40/109;G06V30/19;G06V10/762;G06V10/82;G06N3/0464;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.02.27#授权;2021.05.28#实质审查的生效;2021.05.11#公开

摘要：本发明公布了一种基于深度学习和部件拼接的中文字形及字库生成方法，对目标字库中的汉字字形进行结构拆分得到用于重组的基础矢量部件；根据目标字库中的汉字字形的布局预测待生成字形的布局，将基础矢量部件拼接生成新的矢量字形；生成方法包括线下处理过程和线上处理过程；线下处理过程对已有字库的字体进行处理，得到训练数据和参考模板，线上处理过程针对任意包含少量特定汉字字形的目标字库，采用部件拼接的方法生成完整的中文矢量字形。采用本发明的技术方案，可根据设计好的少量矢量汉字字形，自动生成一套完整且可以被实际使用的高质量中文矢量字库。

主权项：1.一种基于深度学习和部件拼接的中文字形生成方法，对目标字库中的汉字字形进行结构拆分得到用于重组的基础矢量部件；根据目标字库中的汉字字形的布局预测待生成字形的布局，将基础矢量部件拼接生成新的矢量字形；所述中文字形生成方法包括线下处理过程和线上处理过程；所述线下处理过程对已有字库的字体进行处理，得到训练数据和参考模板，包括步骤A～D；所述线上处理过程针对任意包含少量特定汉字字形的目标字库，采用部件拼接的方法生成完整的中文矢量字形，包括步骤E～I；A.对字库中的汉字字形进行笔画类别标记，得到笔画类别；B.对字库中的汉字字形进行部件提取，将每个汉字字形标记好的笔画进行组合，得到不同的基础矢量部件；对每个组合好的部件进行特征提取，通过聚类得到部件类别；C.再根据部件类别，选择相应的汉字字符形成最终输入字符集：D.对已有字库中的汉字字形进行部件拆分处理，获得用于模型预训练的输入数据集；执行如下操作：D1.将选出字体中的字形渲染为图片，对图片字形的笔画骨架进行标注，得到一系列笔画骨架点的集合；D2.将渲染后得到的字形的黑色像素点分配到最近的笔画骨架点上，进行图像级别的笔画拆分；D3.将笔画组合成为部件；D4.将矢量字形与图像字形对齐，将曲线分配到距离最近的部件像素上，将属于同一部件的曲线进行闭合，进行矢量字形的部件拆分；D5.对拆分出错的结果进行校正；D6.将拆分好的矢量部件制作成数据集，可作为输入用于模型预训练；E.采集得到目标字库的部分矢量汉字字形，所述字形的字符对应于输入字符集中的字符；F.对步骤E中得到的汉字字形进行部件拆分和提取，形成可用于拼接的基础部件；所述拆分包括图像级别的拆分和矢量字形的拆分；执行如下操作：F1.从输入数据集中确定多种字体作为线上拆分的参考汉字字形；F2.使用细化算法将目标字形图片和参考字形图片细化为线性的骨架形式，得到细化后的点集；F3.使用相干点漂移CPD算法，对步骤F2细化后得到的点集进行匹配，即得到目标字形拆分好的骨架；F4.对目标汉字字形在图像级别上进行拆分；F5.对目标字形进行矢量级别拆分，得到矢量化部件；G.构建件架结构预测模型，对不在输入字符集中的字符对应的字形的件架结构进行预测；G1.构建件架结构预测模型；所述件架结构预测模型包括：特征提取器、生成器和检测器；所述特征提取器用于对字形图片进行卷积和池化；所述生成器用于生成特征图并实现对特征图的变换；所述检测器用于输出对应的包围框；G2.训练件架结构预测模型；执行如下操作：传入同一个汉字字形的参考字体图片和目标字体图片；通过特征提取器有效提取字形图片的特征；通过生成器对参考字体的特征进行变换；再通过检测器根据特征图对字形图片中不同的部件进行定位；具体定义参考字体字形图片为Is、目标字体图片为It，经过特征提取网络后，得到两个特征图Fs和Ft；生成器的目标为使得Fs和Ft尽量接近；设置生成器的损失函数Lossg为：其中，w和h分别为特征图的宽、高；件架结构预测模型的损失函数表示为：Loss＝λ1Lossg+λ2Lossd其中，λ1和λ2分别表示权重，Lossd表示检测器的损失函数；G3.对件架结构预测模型进行预训练，执行如下操作：使用步骤D中处理好的字库数据，首先去掉件架结构预测网络模型的生成器，将特征提取器输出的特征图直接送入检测器，由此单独训练检测器；之后将特征提取器的参数固定，去掉检测器，由此单独训练生成器；G4.对件架结构预测模型进行线上训练，执行如下操作：使用输入字符集中的汉字字符对应的字形作为目标字形，训练检测器；训练件架结构预测模型网络，学习参考字体到目标字体的变换，同时使得检测器维持对目标字形部件的件架结构的检测；由此得到训练好的架结构预测模型；H.利用步骤G训练好的件架结构预测模型，从步骤F得到的拆分好的部件中选择部件，并将其放置在预测包围框中，实现拼字和字体生成；具体执行如下操作：H1.设定汉字字形h的组成包括部件A、B、C，预测包围框分别表示为bA、bB、bC；首先计算所有部件A与目标包围框在尺寸上的相似程度；使用如下公式计算部件与预测包围框的尺寸相似度指标Score： Score＝Ratiow+Ratioh其中，w1、h1表示部件的宽、高，w2、h2表示包围框bA的宽、高；将Score值最大的部件作为跟bA大小最接近的部件，将其缩放到bA大小后，放置在bA中；对部件B和C执行相同的操作，即得到汉字字形h对应的拼接好的字形；I.生成矢量曲线描边字库TTF；执行如下操作：对所有矢量部件进行存储，同时对每个汉字字形，存储步骤H中得到的部件索引、部件位置及部件在水平和竖直方向上的缩放比例；存储每个部件的贝塞尔曲线，生成TTF文件；根据TTF文件，自动按照索引和缩放方法，通过渲染得到对应的字形；通过上述步骤，实现基于深度学习和部件拼接的中文字形生成。

全文数据：

权利要求：

百度查询：北京大学一种基于深度学习和部件拼接的中文字形及字库生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：针对容器逃逸攻击的防御方法、装置、设备及存储介质_中国科学院信息工程研究所_202410279270.4

下一篇：一种页面测试方法、装置、电子设备及存储介质_建信金融科技有限责任公司_202410227353.9

相关技术

针对容器逃逸攻击的防御方法、装置、设备及存储介质_中国科学院信息工程研究所_202410279270.4

一种页面测试方法、装置、电子设备及存储介质_建信金融科技有限责任公司_202410227353.9

一种营销用广告展示设备及方法_深圳市叁柒无限网络科技有限公司_202410581326.1

驱动马达、摄像头装置、电子设备及磁石组的制备方法_华为技术有限公司_202410033714.6

用锌转运蛋白7抑制神经退行性变_加利福尼亚大学董事会_202280074028.2

头发护理器具_戴森技术有限公司_202280074683.8

显示面板_友达光电股份有限公司_202410577962.7

一种用于肉类食品产销对接的供应链管理系统及方法_北京鑫创数字科技股份有限公司_202410167956.4

力加载装置、静热实验测试系统及方法_航天科工防御技术研究试验中心_202410030538.0

显示装置_乐金显示有限公司_202410235668.8

一种项目群风险分析方法_北京交通大学_202410150769.5

一种模拟人工无序加工的方法_江苏扬力数控机床有限公司_202410307604.4

中文相关技术

一种中文书法练习装置_盘锦职业技术学院_202322619953.3

基于深度范例的中文文本识别方法_复旦大学_202410188396.0

一种中文作文句评输出方法_北京阅神智能科技有限公司_202111015051.8

一种中文输入法及基于本输入法的键盘_朱新杰_202410543093.6

一种文档中文本内容的排版方法及装置_珠海金山办公软件有限公司_202010005498.6

一种医疗领域中文文本部首特征获取方法_安徽理工大学_202111561571.9

基于词典增强和相互注意力的中文医疗命名实体识别方法_浙江工业大学_202410323059.8

一种基于深度学习的渔业中文命名实体识别方法及系统_广东海洋大学_202410620127.7

一种电力领域中文文本纠错方法、装置、存储介质及计算设备_国网江苏省电力有限公司电力科学研究院_202111259401.5

一种网页的中文转换方法及装置_中国工商银行股份有限公司_202410358780.0

拼接相关技术

一种拼接模块_易快(厦门)电气科技有限公司_202323144082.0

一种可拼接灯具_广东省奎发贸易有限公司_202323068993.X

一种托板的拼接装置_武汉联开检测科技有限公司_202322901913.8

加热吸盘组件以及芯片拼接装置_北京半导体专用设备研究所(中国电子科技集团公司第四十五研究所)_202011381251.0

一种拼接式纸箱_上海实荣纸业有限公司_202322891746.3

一种导流罩拼接装置_湖北东利汽车零部件有限公司_202323169585.3

拼接灯板以及显示装置_惠科股份有限公司_202410474430.0

一种不同木材拼接装置_芮城县理天木雕文化研究所_202323159841.0

拼接式半导体封装结构_盐城恒振电子科技有限公司_202410407284.X

一种拼接式栽培装置_王春丽_202322509001.6

字形相关技术

一种V字形开槽的摩擦片_上海华信摩擦材料有限公司_202323281279.9

一种工字形海绵托_中南大学湘雅医院_202322195991.0

一种7字形上料站_乐清市渝方自动化科技有限公司_202323137146.4

一种方管品字形导轨_天津九盛工程技术有限公司_202323046145.9

一种T字形组合点火熄火保护与火种结构_浙江惠厨节能科技有限公司_201910856219.4

一种钢箱梁用彐字形快速安装机构_河南创优科学技术研究院有限公司_202322573902.1

一种十字形移动通风槽_武汉德和聚力环保科技有限公司_202322942159.2

一种工字形护坡砖加工生产用成型模具_榆林市高新区忠信建材有限公司_202323101237.2

装配式人字形护坡_海南省帮地环保科技开发有限公司_202322572920.8

一种人字形分料机构_创超科技(唐山)有限公司_202323143408.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种基于深度学习和部件拼接的中文字形及字库生成方法_北京大学_201911069573.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务