首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种利用五笔字根深度学习的未登录词识别方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东技术师范大学

摘要:本发明属于处理自然语言数据的技术领域,公开了一种利用五笔字根深度学习的未登录词识别方法及系统,将汉字字符按照五笔字根表,转变成4个英语字母;然后作为模型的嵌入向量输入到语料库的词所对应的嵌入向量来训练神经网络模型;最后模型会输出一个之前语料库中最为接近的词汇向量,以该词汇向量作为识别未登录词汇的重要依据,更好地识别未登录词语。本发明利用偏旁部首相近的汉字词,大多具有相同的词性,其五笔编码也相近,提出一种利用五笔字根的神经网络实体识别方法,能够提高神经网络模型识别未登录词的性能。本发明基于深度学习使用词向量来表示词语,解决了高纬度向量空间的稀疏问题,更加简单有效。

主权项:1.一种利用五笔字根深度学习的未登录词识别方法,其特征在于,所述利用五笔字根深度学习的未登录词识别方法包括:步骤一,将五笔嵌入合并到原始的字符中,为输入句中的每个字符构建一个综合的字符表示;步骤二,查找字符对应英语字母的嵌入字母表;步骤三,应用cnn神经网络自动提取字符信息的n-gram特征,通过生成不同的特征映射集来模拟不同的n-gram特征;并将每个字符分成笔画生成包含字符表示的n-gram模型;步骤四,采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型;步骤五,将字符向量输入到LSTM神经网络模型进行训练,对字符中每个英文字母进行上下文信息、建模;步骤六,合并字符向量,将字根集成字符嵌入提供给LSTM神经网络的输出端,以解码和预测输入句子的最终标记序列;步骤一中,所述为每个字符构建一个综合的字符表示具体包括:对于每个汉字,按照五笔字根表,转换为4个英语字母,对于部分未达到4个英文字母的汉字,在前或后添加“·”作为填充。

全文数据:一种利用五笔字根深度学习的未登录词识别方法及系统技术领域本发明属于处理自然语言数据的技术领域,尤其涉及一种利用五笔字根深度学习的未登录词识别方法及系统。背景技术目前,业内常用的现有技术是这样的:目前广泛应用于自然语言处理领域的“命名实体”最初于1996年在第六届信息理解会议上提出,MUC-6的大部分研究都是基于规则方法,如:词形或词性的词汇规则。根据命名实体前后的提示词、上下文语境等制定字符匹配规则,主要侧重于信息抽取任务。命名实体就是对感兴趣的对象能用来解决特定问题,Sekine认为通用的7小类命名实体并不能满足自动问答和信息检索的应用需求。在汉语分词中,未登录词OutofVocabulary,OOV是影响分词效果非常重要的因素,而命名实体是未登录词中最为明显的一种,因此命名实体是汉语自动分词无法回避的问题。基于规则的方法需要人工制定若干个规则,可行性太低,当应用领域差别很大时,可移植性差,需要重新制定规则;基于机器学习的方法有二种思路,一种方法是先识别出文本中所有的命名实体边界,再使用模型对文本中的实体分类;另一种是序列化标注方法,对语料中每个词可以有若干个候选的类别标签,标签对应在各类命名实体中的位置,不能识别出未登录词。在现有的识别模型中,神经网络模型如LSTM,RNN等实体识别中表现出较强的竞争力。由于神经网络模型是以训练集中的字符作为基本的输入单元,很容易地识别登录词,在实验数据集合上的测试结果也验证了该类模型能够识别登录词,但是该类方法并不能很好地识别未登录词。综上所述,现有技术存在的问题是:1基于规则的方法需要人工制定若干个规则,可行性太低,当应用领域差别很大时,可移植性差,需要重新制定规则。2基于机器学习的方法以及基于神经网络模型的识别方法无法识别未登录词。解决上述技术问题的难度:随着学术界对命名实体识别的研究,可以根据模型和算法的不同来进行命名实体的识别。解决上述技术问题的意义:目前,各个领域的专业名词门类庞杂、内容泛化,信息量较大,且构成也很复杂。从而导致人们不能准确完整的描述或表达,而是使用一些别名、简写、字词等方式进行描述,那么,问题出现了,经常会有错别字、歧义词、相近义等混淆使用。这样会对该领域的名称识别造成严重的影响。综上分析,利用五笔字根对未登录词的识别有着重要的意义和实际应用价值。本发明提出的模型利用五笔字根的特征。与传统使用词向量的模型相比,本发明提出的模型能够很好的避免分词错误带来的影响。发明内容针对现有技术存在的问题,本发明提供了一种利用五笔字根深度学习的未登录词识别方法及系统。本发明是这样实现的,一种利用五笔字根深度学习的未登录词识别方法,所述利用五笔字根深度学习的未登录词识别方法具体包括:步骤一,将五笔嵌入合并到原始的字符中,为输入句中的每个字符构建一个综合的字符表示;步骤二,查找字符对应英语字母的嵌入字母表;步骤三,应用cnn神经网络自动提取字符信息的n-gram特征,通过生成不同的特征映射集来模拟不同的n-gram特征;并将每个字符分成笔画生成包含字符表示的n-gram模型;步骤四,采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型;步骤五,将字符向量输入到LSTM神经网络模型进行训练,对字符中每个英文字母进行上下文信息、建模;步骤六,合并字符向量,将字根集成字符嵌入提供给LSTM神经网络的输出端,以解码和预测输入句子的最终标记序列。进一步,步骤一中,所述为每个字符构建一个综合的字符表示具体包括:对于每个汉字,按照五笔字根表,转换为4个英语字母,对于部分未达到4个英文字母的汉字,在前或后添加“·”作为填充。本发明的另一目的在于提供一种基于所述利用五笔字根深度学习的未登录词识别方法的利用五笔字根深度学习的未登录词识别系统,所述利用五笔字根深度学习的未登录词识别系统包括:字符构建模块,用于将五笔嵌入合并到原始的字符中,为输入句中的每个字符构建一个综合的字符表示;字符查找模块,用于查找字符对应英语字母的嵌入字母表;模型构建模块,用于应用cnn神经网络自动提取字符信息的n-gram特征,通过生成不同的特征映射集来模拟不同的n-gram特征;并将每个字符分成笔画生成包含字符表示的n-gram模型;模型模拟模块,用于采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型;训练模块,用于将字符向量输入到LSTM神经网络模型进行训练,对字符中每个英文字母进行上下文信息、建模;字符嵌入模块,用于合并字符向量,将字根集成字符嵌入提供给LSTM神经网络的输出端,以解码和预测输入句子的最终标记序列。本发明的另一目的在于提供一种应用所述利用五笔字根深度学习的未登录词识别方法的计算机程序。本发明的另一目的在于提供一种实现所述利用五笔字根深度学习的未登录词识别方法的信息数据处理终端。本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的利用五笔字根深度学习的未登录词识别方法的。综上所述,本发明的优点及积极效果为:本发明利用偏旁部首相近的汉字词,大多具有相同的词性,其五笔编码也相近,提出一种利用五笔字根的神经网络实体识别方法,能够提高神经网络模型识别未登录词的性能。本发明基于深度学习使用词向量来表示词语,解决了高纬度向量空间的稀疏问题,而且词向量本身比人工选择的特征包含更多的语义信息,还可以从多源异构数据融合的文本中获取统一向量空间的特征表示,更加简单有效。本发明将词嵌入转变成字母嵌入,利用相同意思的汉字其五笔编码也相近的原则,将每一个汉字转换为4个英文字母,进而提高神经网络模型识别未登录词的性能。本发明可以用笔画代替,对每个汉字的笔画作为词语嵌入,能够提高模型识别未登录词的精确度;同时只需词向量和字符向量就能达到主流水平,加入高质量的词典特征能够进一步提升效果。本发明是结合LSTM与五笔字根的模型,用于中文命名实体的识别。本发明模型对输入字符序列和所有匹配五笔字根词典的潜在词汇进行编码。与基于字符的方法相比,本发明显性地利用词和词序信息。门控循环单元使得模型能够从句子中选择最相关的字符和词,以生成更好的命名实体识别结果。本发明利用五笔字根表示汉字,这些表示作为字符嵌入相结合,可以增强探索字符的形态和语义信息;本发明用神经网络自动提取n-gram特征,将每个字符分成笔画来提出n-gram模型,每个字符都是由4个英文字母表示,对于具有相同类型的不同字符,会带来模糊信息,从而提高算法识别未登录词的性能。本发明采用五笔表示法并将字根集成字符嵌入以形成最终的输入,然后采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型,有利于识别未登录词语。本发明所提五笔方法能够区分具有相似结构的单词。如果字符少于四个英文字母,可用空白字母填充初始化嵌入,以保证每个字符都具有四个笔画级别表示,在训练模型期间,笔划输入向量值不断更新,能够增强模型的性能。附图说明图1是本发明实施例提供的利用五笔字根深度学习的未登录词识别方法流程图。图2是本发明实施例提供的利用五笔字根深度学习的未登录词识别方法原理架构图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。下面结合附图对本发明的技术方案作详细描述。如图1-图2所示,本发明实施例提供的利用五笔字根深度学习的未登录词识别方法具体包括:S101:将五笔嵌入合并到原始的字符中,为输入句中的每个字符构建一个综合的字符表示;对于每个汉字,按照五笔字根表,转换为4个英语字母,对于部分未达到4个英文字母的汉字,在前或后添加“·”作为填充;S102:查找字符对应英语字母的嵌入字母表;S103:应用cnn神经网络自动提取字符信息的n-gram特征,通过生成不同的特征映射集来模拟不同的n-gram特征;并将每个字符分成笔画生成包含字符表示的n-gram模型;S104:采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型;S105:将字符向量输入到LSTM神经网络模型进行训练,对字符中每个英文字母进行上下文信息、建模;S106:合并字符向量,将字根集成字符嵌入提供给LSTM神经网络的输出端,以解码和预测输入句子的最终标记序列。下面结合具体实施例对本发明的技术方案作进一步描述。实施例1:本发明是结合LSTM与五笔字根的模型,用于中文命名实体的识别。本发明对输入字符序列和所有匹配五笔字根词典的潜在词汇进行编码。与基于字符的方法相比,本发明显性地利用词和词序信息。门控循环单元使得模型能够从句子中选择最相关的字符和词,以生成更好的命名实体识别结果。本发明实施例在输入词嵌入方面,利用五笔字根表示汉字,这些表示作为字符嵌入相结合,可以增强探索字符的形态和语义信息,用神经网络自动提取n-gram特征。将每个字符分成笔画来提出n-gram模型,每个字符都是由4个英文字母表示。对于具有相同类型的不同字符,该方法的实现会带来模糊信息,从而提高算法识别未登录词的性能。表1两种字符编码方法比较字五笔表示玲王人、乙gwyc铃金人、乙qwyc本发明实施例采用五笔表示法并将字根集成字符嵌入以形成最终的输入,然后采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型,有利于识别未登录词语。命名实体识别已经广泛的应用到各个领域,比如从一句话中识别出人名、地名,从医疗药物可以识别出产品的名字,从电商销售搜索可以识别出产品有名字等,本发明是针对金融保险领域的一些语料进行研究,发现很多用户提问的时候使用大量的缩写、简写保险的名称,从而降低了问题语义理解的准确率。本发明用长期记忆循环网络与五笔字根相模型结合,在金融保险领域中命名实体识别具有更好的性能,也提高了保险名称识别的准确率。应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器固件的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

权利要求:1.一种利用五笔字根深度学习的未登录词识别方法,其特征在于,所述利用五笔字根深度学习的未登录词识别方法包括:步骤一,将五笔嵌入合并到原始的字符中,为输入句中的每个字符构建一个综合的字符表示;步骤二,查找字符对应英语字母的嵌入字母表;步骤三,应用cnn神经网络自动提取字符信息的n-gram特征,通过生成不同的特征映射集来模拟不同的n-gram特征;并将每个字符分成笔画生成包含字符表示的n-gram模型;步骤四,采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型;步骤五,将字符向量输入到LSTM神经网络模型进行训练,对字符中每个英文字母进行上下文信息、建模;步骤六,合并字符向量,将字根集成字符嵌入提供给LSTM神经网络的输出端,以解码和预测输入句子的最终标记序列。2.如权利要求1所述利用五笔字根深度学习的未登录词识别方法,其特征在于,步骤一中,所述为每个字符构建一个综合的字符表示具体包括:对于每个汉字,按照五笔字根表,转换为4个英语字母,对于部分未达到4个英文字母的汉字,在前或后添加“·”作为填充。3.一种基于权利要求1所述利用五笔字根深度学习的未登录词识别方法的利用五笔字根深度学习的未登录词识别系统,其特征在于,所述利用五笔字根深度学习的未登录词识别系统包括:字符构建模块,用于将五笔嵌入合并到原始的字符中,为输入句中的每个字符构建一个综合的字符表示;字符查找模块,用于查找字符对应英语字母的嵌入字母表;模型构建模块,用于应用cnn神经网络自动提取字符信息的n-gram特征,通过生成不同的特征映射集模拟不同的n-gram特征;并将每个字符分成笔画生成包含字符表示的n-gram模型;模型模拟模块,用于采用不同大小的滤波器的卷积神经网络来模拟传统的n-gram模型;训练模块,用于将字符向量输入到LSTM神经网络模型进行训练,对字符中每个英文字母进行上下文信息、建模;字符嵌入模块,用于合并字符向量,将字根集成字符嵌入提供给LSTM神经网络的输出端,以解码和预测输入句子的最终标记序列。4.一种应用权利要求1~2任意一项所述利用五笔字根深度学习的未登录词识别方法的计算机程序。5.一种实现权利要求1~2任意一项所述利用五笔字根深度学习的未登录词识别方法的信息数据处理终端。6.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-2任意一项所述的利用五笔字根深度学习的未登录词识别方法的。

百度查询: 广东技术师范大学 一种利用五笔字根深度学习的未登录词识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。