一种利用五笔字根深度学习的未登录词识别方法及系统

导航：龙图腾网> 最新专利技术> 一种利用五笔字根深度学习的未登录词识别方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：广东技术师范大学

摘要：本发明属于处理自然语言数据的技术领域，公开了一种利用五笔字根深度学习的未登录词识别方法及系统，将汉字字符按照五笔字根表，转变成4个英语字母；然后作为模型的嵌入向量输入到语料库的词所对应的嵌入向量来训练神经网络模型；最后模型会输出一个之前语料库中最为接近的词汇向量，以该词汇向量作为识别未登录词汇的重要依据，更好地识别未登录词语。本发明利用偏旁部首相近的汉字词，大多具有相同的词性，其五笔编码也相近，提出一种利用五笔字根的神经网络实体识别方法，能够提高神经网络模型识别未登录词的性能。本发明基于深度学习使用词向量来表示词语，解决了高纬度向量空间的稀疏问题，更加简单有效。

主权项：1.一种利用五笔字根深度学习的未登录词识别方法，其特征在于，所述利用五笔字根深度学习的未登录词识别方法包括：步骤一，将五笔嵌入合并到原始的字符中，为输入句中的每个字符构建一个综合的字符表示；步骤二，查找字符对应英语字母的嵌入字母表；步骤三，应用cnn神经网络自动提取字符信息的n-gram特征，通过生成不同的特征映射集来模拟不同的n-gram特征；并将每个字符分成笔画生成包含字符表示的n-gram模型；步骤四，采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型；步骤五，将字符向量输入到LSTM神经网络模型进行训练，对字符中每个英文字母进行上下文信息、建模；步骤六，合并字符向量，将字根集成字符嵌入提供给LSTM神经网络的输出端，以解码和预测输入句子的最终标记序列；步骤一中，所述为每个字符构建一个综合的字符表示具体包括：对于每个汉字，按照五笔字根表，转换为4个英语字母，对于部分未达到4个英文字母的汉字，在前或后添加“·”作为填充。

全文数据：一种利用五笔字根深度学习的未登录词识别方法及系统技术领域本发明属于处理自然语言数据的技术领域，尤其涉及一种利用五笔字根深度学习的未登录词识别方法及系统。背景技术目前，业内常用的现有技术是这样的：目前广泛应用于自然语言处理领域的“命名实体”最初于1996年在第六届信息理解会议上提出，MUC-6的大部分研究都是基于规则方法，如：词形或词性的词汇规则。根据命名实体前后的提示词、上下文语境等制定字符匹配规则，主要侧重于信息抽取任务。命名实体就是对感兴趣的对象能用来解决特定问题，Sekine认为通用的7小类命名实体并不能满足自动问答和信息检索的应用需求。在汉语分词中，未登录词OutofVocabulary，OOV是影响分词效果非常重要的因素，而命名实体是未登录词中最为明显的一种，因此命名实体是汉语自动分词无法回避的问题。基于规则的方法需要人工制定若干个规则，可行性太低，当应用领域差别很大时，可移植性差，需要重新制定规则；基于机器学习的方法有二种思路，一种方法是先识别出文本中所有的命名实体边界，再使用模型对文本中的实体分类；另一种是序列化标注方法，对语料中每个词可以有若干个候选的类别标签，标签对应在各类命名实体中的位置，不能识别出未登录词。在现有的识别模型中，神经网络模型如LSTM,RNN等实体识别中表现出较强的竞争力。由于神经网络模型是以训练集中的字符作为基本的输入单元，很容易地识别登录词，在实验数据集合上的测试结果也验证了该类模型能够识别登录词，但是该类方法并不能很好地识别未登录词。综上所述，现有技术存在的问题是：1基于规则的方法需要人工制定若干个规则，可行性太低，当应用领域差别很大时，可移植性差，需要重新制定规则。2基于机器学习的方法以及基于神经网络模型的识别方法无法识别未登录词。解决上述技术问题的难度：随着学术界对命名实体识别的研究，可以根据模型和算法的不同来进行命名实体的识别。解决上述技术问题的意义：目前，各个领域的专业名词门类庞杂、内容泛化，信息量较大，且构成也很复杂。从而导致人们不能准确完整的描述或表达，而是使用一些别名、简写、字词等方式进行描述，那么，问题出现了，经常会有错别字、歧义词、相近义等混淆使用。这样会对该领域的名称识别造成严重的影响。综上分析，利用五笔字根对未登录词的识别有着重要的意义和实际应用价值。本发明提出的模型利用五笔字根的特征。与传统使用词向量的模型相比，本发明提出的模型能够很好的避免分词错误带来的影响。发明内容针对现有技术存在的问题，本发明提供了一种利用五笔字根深度学习的未登录词识别方法及系统。本发明是这样实现的，一种利用五笔字根深度学习的未登录词识别方法，所述利用五笔字根深度学习的未登录词识别方法具体包括：步骤一，将五笔嵌入合并到原始的字符中，为输入句中的每个字符构建一个综合的字符表示；步骤二，查找字符对应英语字母的嵌入字母表；步骤三，应用cnn神经网络自动提取字符信息的n-gram特征，通过生成不同的特征映射集来模拟不同的n-gram特征；并将每个字符分成笔画生成包含字符表示的n-gram模型；步骤四，采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型；步骤五，将字符向量输入到LSTM神经网络模型进行训练，对字符中每个英文字母进行上下文信息、建模；步骤六，合并字符向量，将字根集成字符嵌入提供给LSTM神经网络的输出端，以解码和预测输入句子的最终标记序列。进一步，步骤一中，所述为每个字符构建一个综合的字符表示具体包括：对于每个汉字，按照五笔字根表，转换为4个英语字母，对于部分未达到4个英文字母的汉字，在前或后添加“·”作为填充。本发明的另一目的在于提供一种基于所述利用五笔字根深度学习的未登录词识别方法的利用五笔字根深度学习的未登录词识别系统，所述利用五笔字根深度学习的未登录词识别系统包括：字符构建模块，用于将五笔嵌入合并到原始的字符中，为输入句中的每个字符构建一个综合的字符表示；字符查找模块，用于查找字符对应英语字母的嵌入字母表；模型构建模块，用于应用cnn神经网络自动提取字符信息的n-gram特征，通过生成不同的特征映射集来模拟不同的n-gram特征；并将每个字符分成笔画生成包含字符表示的n-gram模型；模型模拟模块，用于采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型；训练模块，用于将字符向量输入到LSTM神经网络模型进行训练，对字符中每个英文字母进行上下文信息、建模；字符嵌入模块，用于合并字符向量，将字根集成字符嵌入提供给LSTM神经网络的输出端，以解码和预测输入句子的最终标记序列。本发明的另一目的在于提供一种应用所述利用五笔字根深度学习的未登录词识别方法的计算机程序。本发明的另一目的在于提供一种实现所述利用五笔字根深度学习的未登录词识别方法的信息数据处理终端。本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的利用五笔字根深度学习的未登录词识别方法的。综上所述，本发明的优点及积极效果为：本发明利用偏旁部首相近的汉字词，大多具有相同的词性，其五笔编码也相近，提出一种利用五笔字根的神经网络实体识别方法，能够提高神经网络模型识别未登录词的性能。本发明基于深度学习使用词向量来表示词语，解决了高纬度向量空间的稀疏问题，而且词向量本身比人工选择的特征包含更多的语义信息，还可以从多源异构数据融合的文本中获取统一向量空间的特征表示，更加简单有效。本发明将词嵌入转变成字母嵌入，利用相同意思的汉字其五笔编码也相近的原则，将每一个汉字转换为4个英文字母，进而提高神经网络模型识别未登录词的性能。本发明可以用笔画代替，对每个汉字的笔画作为词语嵌入，能够提高模型识别未登录词的精确度；同时只需词向量和字符向量就能达到主流水平，加入高质量的词典特征能够进一步提升效果。本发明是结合LSTM与五笔字根的模型，用于中文命名实体的识别。本发明模型对输入字符序列和所有匹配五笔字根词典的潜在词汇进行编码。与基于字符的方法相比，本发明显性地利用词和词序信息。门控循环单元使得模型能够从句子中选择最相关的字符和词，以生成更好的命名实体识别结果。本发明利用五笔字根表示汉字，这些表示作为字符嵌入相结合，可以增强探索字符的形态和语义信息；本发明用神经网络自动提取n-gram特征，将每个字符分成笔画来提出n-gram模型，每个字符都是由4个英文字母表示，对于具有相同类型的不同字符，会带来模糊信息，从而提高算法识别未登录词的性能。本发明采用五笔表示法并将字根集成字符嵌入以形成最终的输入，然后采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型，有利于识别未登录词语。本发明所提五笔方法能够区分具有相似结构的单词。如果字符少于四个英文字母，可用空白字母填充初始化嵌入，以保证每个字符都具有四个笔画级别表示，在训练模型期间，笔划输入向量值不断更新，能够增强模型的性能。附图说明图1是本发明实施例提供的利用五笔字根深度学习的未登录词识别方法流程图。图2是本发明实施例提供的利用五笔字根深度学习的未登录词识别方法原理架构图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。下面结合附图对本发明的技术方案作详细描述。如图1-图2所示，本发明实施例提供的利用五笔字根深度学习的未登录词识别方法具体包括：S101：将五笔嵌入合并到原始的字符中，为输入句中的每个字符构建一个综合的字符表示；对于每个汉字，按照五笔字根表，转换为4个英语字母，对于部分未达到4个英文字母的汉字，在前或后添加“·”作为填充；S102：查找字符对应英语字母的嵌入字母表；S103：应用cnn神经网络自动提取字符信息的n-gram特征，通过生成不同的特征映射集来模拟不同的n-gram特征；并将每个字符分成笔画生成包含字符表示的n-gram模型；S104：采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型；S105：将字符向量输入到LSTM神经网络模型进行训练，对字符中每个英文字母进行上下文信息、建模；S106：合并字符向量，将字根集成字符嵌入提供给LSTM神经网络的输出端，以解码和预测输入句子的最终标记序列。下面结合具体实施例对本发明的技术方案作进一步描述。实施例1：本发明是结合LSTM与五笔字根的模型，用于中文命名实体的识别。本发明对输入字符序列和所有匹配五笔字根词典的潜在词汇进行编码。与基于字符的方法相比，本发明显性地利用词和词序信息。门控循环单元使得模型能够从句子中选择最相关的字符和词，以生成更好的命名实体识别结果。本发明实施例在输入词嵌入方面，利用五笔字根表示汉字，这些表示作为字符嵌入相结合，可以增强探索字符的形态和语义信息，用神经网络自动提取n-gram特征。将每个字符分成笔画来提出n-gram模型，每个字符都是由4个英文字母表示。对于具有相同类型的不同字符，该方法的实现会带来模糊信息，从而提高算法识别未登录词的性能。表1两种字符编码方法比较字五笔表示玲王人、乙gwyc铃金人、乙qwyc本发明实施例采用五笔表示法并将字根集成字符嵌入以形成最终的输入，然后采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型，有利于识别未登录词语。命名实体识别已经广泛的应用到各个领域，比如从一句话中识别出人名、地名，从医疗药物可以识别出产品的名字，从电商销售搜索可以识别出产品有名字等，本发明是针对金融保险领域的一些语料进行研究，发现很多用户提问的时候使用大量的缩写、简写保险的名称，从而降低了问题语义理解的准确率。本发明用长期记忆循环网络与五笔字根相模型结合，在金融保险领域中命名实体识别具有更好的性能，也提高了保险名称识别的准确率。应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器固件的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

权利要求：1.一种利用五笔字根深度学习的未登录词识别方法，其特征在于，所述利用五笔字根深度学习的未登录词识别方法包括：步骤一，将五笔嵌入合并到原始的字符中，为输入句中的每个字符构建一个综合的字符表示；步骤二，查找字符对应英语字母的嵌入字母表；步骤三，应用cnn神经网络自动提取字符信息的n-gram特征，通过生成不同的特征映射集来模拟不同的n-gram特征；并将每个字符分成笔画生成包含字符表示的n-gram模型；步骤四，采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型；步骤五，将字符向量输入到LSTM神经网络模型进行训练，对字符中每个英文字母进行上下文信息、建模；步骤六，合并字符向量，将字根集成字符嵌入提供给LSTM神经网络的输出端，以解码和预测输入句子的最终标记序列。2.如权利要求1所述利用五笔字根深度学习的未登录词识别方法，其特征在于，步骤一中，所述为每个字符构建一个综合的字符表示具体包括：对于每个汉字，按照五笔字根表，转换为4个英语字母，对于部分未达到4个英文字母的汉字，在前或后添加“·”作为填充。3.一种基于权利要求1所述利用五笔字根深度学习的未登录词识别方法的利用五笔字根深度学习的未登录词识别系统，其特征在于，所述利用五笔字根深度学习的未登录词识别系统包括：字符构建模块，用于将五笔嵌入合并到原始的字符中，为输入句中的每个字符构建一个综合的字符表示；字符查找模块，用于查找字符对应英语字母的嵌入字母表；模型构建模块，用于应用cnn神经网络自动提取字符信息的n-gram特征，通过生成不同的特征映射集模拟不同的n-gram特征；并将每个字符分成笔画生成包含字符表示的n-gram模型；模型模拟模块，用于采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型；训练模块，用于将字符向量输入到LSTM神经网络模型进行训练，对字符中每个英文字母进行上下文信息、建模；字符嵌入模块，用于合并字符向量，将字根集成字符嵌入提供给LSTM神经网络的输出端，以解码和预测输入句子的最终标记序列。4.一种应用权利要求1～2任意一项所述利用五笔字根深度学习的未登录词识别方法的计算机程序。5.一种实现权利要求1～2任意一项所述利用五笔字根深度学习的未登录词识别方法的信息数据处理终端。6.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-2任意一项所述的利用五笔字根深度学习的未登录词识别方法的。

百度查询：广东技术师范大学一种利用五笔字根深度学习的未登录词识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种PCF板的连接结构及其使用方法

下一篇：一种预防静脉血栓床上用踝关节辅助锻炼机构

相关技术

一种PCF板的连接结构及其使用方法

一种预防静脉血栓床上用踝关节辅助锻炼机构

一种冰孔约束下水下航行体出水试验装置及试验方法

逆变器动态功率解耦控制方法及装置

一种磷酸铈钴锂改性类单晶富锂锰基正极材料的制备方法及其产物

一种有效微生物群活性菌剂及其应用方法

自移动设备大区域移动方法、自移动设备及存储介质

一种可溯源可监控的监狱针车分发装置及系统

一种道路靶向安全警示系统、其使用方法及多个系统之间建立私有局域网的使用方法

性别判定模型的生成方法、装置、电子设备及介质

人体属性的识别方法、装置、电子设备及存储介质

一种1.0-2.0mm厚度热基镀锌原料的生产方法

登录相关技术

小程序登录方法、设备及存储介质_中企云链股份有限公司_202410842196.2

一种涉及用户账号的登录方法、装置、电子设备及其存储介质_王晓光_202410727401.0

一种跨平台的系统安全登录认证系统_北京计算机技术及应用研究所_202211175173.8

页面重复登录方法、装置、设备及存储介质_中国平安财产保险股份有限公司_202111546598.0

用于将用户登录到车辆的方法、计算机可读介质、系统和车辆_宝马股份公司_202280090978.4

用于使用户登录到车辆的方法、计算机可读介质、系统和车辆_宝马股份公司_202280090820.7

一种计算机异常登录检测方法及系统_潍坊众索信息技术有限公司_202411144048.X

一种电子设备登录账号的切换方法_厦门嘉佑安科信息技术有限公司_202410734649.X

页面登录控制方法、装置、设备、存储介质及程序产品_马上消费金融股份有限公司_202410349647.9

登录页面生成的方法、装置及电子设备_南京四维智联科技有限公司_202210372602.4

未相关技术

方向未对齐条件下的跨视角图像地理定位方法及装置_中国科学院空天信息创新研究院_202411132754.2

一种未硫化胶条无缝成环设备及工艺_上海芯密科技有限公司_202410495926.6

在新无线电未许可多信道接入中的对话前监听结构的协调_高通股份有限公司_201980061990.0

一种基于Valsalva动作的卵圆孔未闭辅助诊断装置_广东省人民医院_202411097019.2

未包衣的乳制品_通用工厂公司_201880098356.X

新无线电未许可频谱中的寻呼用户装备_苹果公司_201980070587.4

封堵器及卵圆孔未闭封堵器_浙江大学_202322833330.6

封堵器及卵圆孔未闭封堵器_浙江大学_202322828667.8

末端未签收快件催件仲裁方法、装置、设备及存储介质_上海韵达高新技术有限公司_202410600488.5

一种用于探测地下未爆炸物的金属感应探测装置_青岛中电众益智能科技发展有限公司_202420128240.9

学习相关技术

一种学习书架_刘毅_202420259449.9

提升AI识别学习能力_华为技术有限公司_201980068228.5

基于关键学习期识别的同态加密联邦学习通信成本控制方法和系统_北京航空航天大学_202410766229.X

一种基于联邦学习的机器学习模型训练方法及装置_西交网络空间安全研究院_202410880422.6

一种基于原型对齐学习的个性化联邦学习方法_浙江大学_202410762046.0

一种基于学习行为的个性化区块链联邦学习方法_东华大学_202410792742.6

基于深度学习的自动束建模_医科达(上海)科技有限公司_202080103747.3

一种学习桌_厦门胜诚鑫科技股份有限公司_202323419230.5

一种面向深度学习大模型的参数微调迁移学习方法及系统_山东省计算中心(国家超级计算济南中心)_202410820143.0

检查装置、检查方法、学习完毕模型生成装置、检查用程序以及学习完毕模型生成用程序_日置电机株式会社_202380020782.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种利用五笔字根深度学习的未登录词识别方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务