一种分级的智能拼音与文字匹配方法

导航：龙图腾网> 最新专利技术> 一种分级的智能拼音与文字匹配方法

申请/专利权人：华南理工大学

申请日：2022-03-25

公开（公告）日：2024-06-28

公开（公告）号：CN114818663B

主分类号：G06F40/216

分类号：G06F40/216;G06F40/289;G06F40/242;G06F40/30;G06F3/023;G10L15/08

优先权：

专利状态码：有效-授权

法律状态：2024.06.28#授权;2022.08.16#实质审查的生效;2022.07.29#公开

摘要：本发明公开了一种分级的智能拼音与文字匹配方法，用于提高撰写专业领域文本时的输入效率，减少错误。在输入文字时，除了通用的词汇外，还涉及专用词汇，如本地本机专用词汇、专业领域的专业词汇以及本地专业部门特有的场所名、特定编号的设备名乃至人名等，因为同音字的广泛存在，常用的拼音输入法匹配这些文字的错误率比较高，需要频繁地做选择，导致输入效率低下，本发明提出差频原理，自动建立本地本机专用词库，以差频专用词汇为中心匹配拼音与文字，采用任意位置转换机制，通过这些步骤，可以减少频繁选择同音词组的麻烦，提高输入效率。

主权项：1.一种分级的智能拼音与文字匹配方法，其特征在于，包括：专用模式选择：选择是否进入专用词汇输入模式，若是，则进入级别优先匹配，若不是，就直接将输入的拼音与词汇的拼音进行匹配，出现的频率高的词汇优先匹配，最后余下的拼音与单个中文字匹配；其中，所述词汇指中文词组，一个中文词组包括至少2个中文字，所述专用词汇包括本地专用词汇和专业术语，所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇；级别优先匹配：设输入的拼音串名为A，A为一个拼音句子，对应着一个文字句子，A变成文字的过程中，优先与差频专用词库的一级子库词汇的拼音匹配，匹配成功则A的部分拼音变成文字，匹配不成功再考虑下一级，直到最后一级子库，其中，所述匹配即求A的一部分拼音和某个中文词组或字的正确拼音之间的相似度，也简称为拼音与文字或词汇的匹配；所述差频专用词库由分级的专用词汇及其拼音组成，词汇的级别由其两个频率的差异决定，即在专用资料中出现的频率越高该词汇级别越高，而在通用资料中出现的频率越高该词汇级别越低，同级别的专用词汇构成一个子库，最高级子库为一级子库，以下依次为二级到最低级子库；频率优先匹配：在级别优先匹配完成之后，对A余下的拼音与词汇的拼音进行匹配，出现的频率高的词汇优先匹配，最后余下的拼音与单个中文字匹配；所述差频专用词库的构建，包括以下步骤：S1、采集专用资料的词汇，包括本机和本地局域网的专业文件、本部门的专业文件，并搜索网络上的相关专业学术文章；S2、对上一步所采集的专用资料的词汇进行清理、分词操作，获得词汇列表，接着对词汇列表进行词频统计，得到专用词频词典；其中，词频＝该词汇重复的次数×该词汇长度全部资料总字数，所述专用词频词典包含了专用资料中出现的全部词汇及其词频；S3、采集通用资料的词汇，包括人民日报语料库、新浪、搜狐、网易三大网站的新闻，进行词汇词频统计，得到通用词频词典，包含了通用资料中出现的全部词汇及其词频；S4、对专用词频词典的每个词汇做差频操作，得到差频专用词库，所述差频操作即：差频值＝一个词汇的专用词频－k×其通用词频，此处k为固定的系数，专用词频和通用词频分别由专用词频词典和通用词频词典得到，词典中查不到的词汇，其词频计为0；S5、将差频值排名前25％的词汇存入一级子库，26％至50％的词汇存入二级子库，51％至75％的词汇存入三级子库，其它大于0的词汇存入四级，差频值小于或等于0的舍去；S6、为差频专用词库中每一个词汇关联其对应的拼音，最终形成面向专业领域的差频专用词库；所述差频专用词库由一、二、三、四级子库组成，差频值越高的词汇在子库排队越前面；所述级别优先匹配的步骤包括：逆向取词：在一级子库内未匹配过的词汇中取差频值最高词汇的拼音，设其名称为B，如果一级子库中的词汇都已经进行过匹配操作则顺延到下一级子库；任意位置转换文字：在A中搜索类似于B的子串C，如果B与C匹配成功，则将C转换为相应的中文词组；如果A中有多个类似于B的子串，则都要重复上面操作；所述子串C能够位于A的任意位置；当输入多于5个句子时，则在级别优先匹配之前先进行主题词确定、主题词队列排序和主题词匹配，具体如下：主题词确定：统计前文重复的词汇及其重复次数；如果该重复的词汇是差频专用词汇，则将该词汇加入主题词队列，否则舍去；主题词队列排序：设从开始本次拼音输入启动至当前待识句子为止，已有n个拼音串被转换为n个文字句子，当前待转换拼音串编号为第n+1句，则一个重复词汇的主题值为：式中，i、j为该词汇在第i、j句时重复，省略号表示其它重复句子，i，j＜n；G为该词汇所属的差频专用词库的子库的级别，其取值为1至4整数；计算前n个句子中所有主题词的主题值，再按主题值从大至小排队，得到主题词队列；主题词匹配：将A与主题词队列进行匹配，从队列第一个主题词汇开始，匹配成功则A的部分拼音变成文字，匹配不成功再考虑下一主题词，直到队列最后一个主题词；所述匹配包括如下步骤：计算字母编辑距离：指一个拼音串转换为一个正确的拼音单元所需的最少字母编辑操作次数；所述正确的拼音单元指该单元对应某个汉字的拼音，许可的编辑操作包括：插入一个字母、删除一个字母、将一个字母替换成另一个、两个字母交换位置；计算音素编辑距离：指两个拼音串之间，由一个转换成另一个所需的最少音素编辑操作次数；所述音素指拼音的声母或韵母，许可的编辑操作包括：插入一个声母韵母、删除一个声母韵母、将一个声母韵母替换成另一个，一次模糊音之间的替换只算0.5次；计算匹配值＝字母编辑距离+音素编辑距离；如果匹配的是专用词库的词汇，则当匹配值小于给定阈值时，给出匹配成功信号，否则给出匹配失败信号，输出匹配值；如果匹配的是通用词库的词汇，仅输出匹配值。

全文数据：

权利要求：

百度查询：华南理工大学一种分级的智能拼音与文字匹配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：铠甲式轮胎保护链

下一篇：一种移动式自填充胶枪

相关技术

铠甲式轮胎保护链

一种移动式自填充胶枪

一种可控制持握角度的羽毛球拍

一种模具加工用定位装置

一种可快速拼接的安装架

一种高强度组合式不锈钢管

一种具有分级过滤功能的纳滤膜元件

一种芦笋种植用废料混合装置

一种微型制冷压缩机

一种奶牛饲料生产用研磨装置

一种基于防潮功能的变频器控制箱

一种装配式铝方通转角拼接结构

拼音相关技术

一种拼音搜索系统_上海自然而然信息科技有限公司_202410446259.2

基于30键键盘的汉语拼音简拼或形码简拼输入法_米环科技(长春)有限公司_202410643173.9

基于30键键盘的汉语拼音双拼输入法_米环科技(长春)有限公司_202410643170.5

汉字拼音混淆项的生成方法及计算机可读存储介质_福建天泉教育科技有限公司_202010824564.2

基于30键键盘的汉语拼音全拼输入法_米环科技(长春)有限公司_202410643161.6

基于LVGL实现九宫格拼音输入法的方法、电子设备及可读存储介质_武汉天喻信息产业股份有限公司_202410398607.3

一种基于自注意力机制的自动化拼音转汉字方法_浙江大学_202210269579.6

一种基于汉语拼音的藏文快速智能输入系统及方法_西藏大学_202410084141.X

基于拼音检索视频文件的方法及相关设备_湖南快乐阳光互动娱乐传媒有限公司_202410275019.0

粤语拼音的预测方法、系统、设备及介质_华院计算技术(上海)股份有限公司_202410058013.8

匹配相关技术

传输线匹配电路及其匹配方法、自动搬运车_杭州海康机器人股份有限公司_202211699984.8

一种船舶动力匹配的船-机-桨功率实时匹配方法及设备_江苏科技大学_202210722929.X

牙龈数据匹配方法、装置及设备_先临三维科技股份有限公司_202410662688.3

传感器的标定匹配系统_比亚迪股份有限公司_202211699845.5

射频网络匹配器及射频离子源系统_中山市博顿光电科技有限公司_202322946100.0

一种多匹配层换能器的设计方法_苏州声学产业技术研究院有限公司_202410352226.1

一种匹配性高的电池安装结构_湖南言科新能源有限公司_202322673416.7

一种电池分容梯次匹配方法_福建常青新能源科技有限公司_202410237548.1

空间匹配交汇目标定位用航拍器的稳定结构_济钢防务技术有限公司_202420257412.2

防伪识别电路、方法、识别匹配电路以及家电设备_芜湖美的智能厨电制造有限公司_202211678040.2

文字相关技术

一种中医古籍文字识别和预测方法_湖南省中医药研究院_202410473711.4

一种文字区域获取方法、装置、存储介质及终端设备_平安科技(深圳)有限公司_201811451778.9

文字图像标注方法、装置及计算机可读存储介质_平安科技(深圳)有限公司_201811309895.1

面向复杂环境的印章文字检测识别方法、装置及介质_平安科技(深圳)有限公司_202010573766.4

基于对抗训练的场景文字识别方法及装置_中国科学院信息工程研究所_202410434598.9

一种文字客服过程用户情绪预测方法、介质及系统_青岛网信信息科技有限公司_202410436787.X

一种分级的智能拼音与文字匹配方法_华南理工大学_202210298428.3

特殊语言文字的匹配方法及信息验证方法和装置_支付宝实验室(新加坡)有限公司_202011074846.1

一种自适应文字特征的图片分割方法_北京君正集成电路股份有限公司_202211667915.9

一种车牌和语音播报文字内容显示装置_江苏九比特信息系统有限公司_202323400405.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种分级的智能拼音与文字匹配方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务