首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于机器学习的新词识别方法及终端设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:平安科技(深圳)有限公司

摘要:本发明提供了一种基于机器学习的新词识别方法及终端设备,包括:通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;对多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;针对候选字符串中的任一字符串,将字符串与预设停用词库中的前停词、后停词和广义停词进行比对;若字符串不属于广义停词、字符串的第一个字不属于前停词、以及字符串的最后一个字不属于后停词,则判断字符串为新词,将字符串收录至新词词库。本发明通过深度神经网络分词模型对待处理文本进行分词,通过筛选字符串的长度降低计算量,以及将字符串与预设停用词库进行比对,快速精准的获取新词。

主权项:1.一种基于机器学习的新词识别方法,其特征在于,该方法包括:通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库;所述待处理文本是通过对第一预设时间段内获取的第一网页数据进行预处理获得的,若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,该方法还包括:在第二预设时间段内获取第二网页数据,对所述第二网页数据进行预处理得到新的待处理文本,其中所述第二预设时间段为所述第一预设时间段之后的一个时间段;通过所述深度神经网络分词模型,对所述新的待处理文本进行分词处理;获取所述字符串的第一词频和第二词频,其中,所述第一词频为所述字符串在所述待处理文本中出现的次数与所述待处理文本字符串总数目的比值,所述第二词频为所述字符串在所述新的待处理文本中出现的次数与所述新的待处理文本字符串总数目的比值;根据所述第一词频和所述第二词频,判断所述字符串是否为新词;所述根据所述第一词频和所述第二词频,判断所述字符串是否为新词包括:根据公式计算所述字符串的可信度,所述公式为: 其中,S为所述字符串的可信度,为所述第一词频,为所述第二词频,a+b=1,且a≤b;若所述字符串的可信度大于第三预设值,则判断所述字符串为新词。

全文数据:基于机器学习的新词识别方法及终端设备技术领域本发明属于计算机技术领域,尤其涉及一种基于机器学习的新词识别方法及终端设备。背景技术在自然语言处理或计算机语言中,新词是指以前从来没有出现过的词汇,或者在词典中没有收录的词汇。随着互联网技术的不断发展,各行各业随之出现了多种新词,尤其是web2.0应用的出现,允许用户自己创造网页内容,从而导致大量新词涌现。在中文信息处理领域,由于中文不像英文等西方语言,词与词之间有固定的分隔符,因此中文分词是一项重要的基础技术。新词的出现很大程度上影响自动分词工具的准确性,并且,新词的出现真实的反应了人们的生活,是舆情分析的重要依据,因此,新词的识别和储备是中文自然语言处理领域的一项重要研究内容。但是,现有的新词识别技术,对于新词识别的准确率较低。发明内容有鉴于此,本发明实施例提供了一种基于机器学习的新词识别方法及终端设备,以解决现有技术新词识别的准确率低的问题。本发明实施例的第一方面提供了一种基于机器学习的新词识别方法,包括:通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。本发明实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。本发明提供了一种基于机器学习的新词识别方法及终端设备,通过深度神经网络分词模型对待处理文本进行分词,通过筛选字符串的长度降低计算量,以及将字符串与预设停用词库进行比对,快速精准的获取新词。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种基于机器学习的新词识别方法的流程示意图;图2为本发明实施例提供的另一种基于机器学习的新词识别方法的流程示意图;图3为本发明实施例提供的又一种基于机器学习的新词识别方法的流程示意图;图4为本发明实施例提供的再一种基于机器学习的新词识别方法的流程示意图;图5为本发明实施例提供的一种基于机器学习的新词识别装置的结构框图;图6为本发明实施例提供的一种终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。本发明实施例提供了一种基于机器学习的新词识别方法。结合图1,该方法包括:S101,通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串。可选的,本发明实施例提供一种深度神经网络分词模型,该模型包括4层,分别为输入层、第一隐藏层、第二隐藏层和输出层,所述输入层的输入为训练集文本中字符的特征向量,第一隐藏层包括第一预设数目的节点,如100个节点,第二隐藏层包括第二预设数目的节点,如200个节点,所述第一隐藏层和所述第二隐藏层的激活函数为relu函数,所述输出层为分词结果,所述输出层的激活函数为logistics函数。当然,在本步骤中,也可以通过其他深度神经网络分词模型对待处理文本进行分词,本发明实施例对此不做限定。S102,对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串。步骤S101的分词结果为长度不同的字符串,例如,有些字单独构成一个词,其字符串就是一个字大小的字符串,而有些词由多个字构成,其字符串是多个字所对应的字符串。例如,一般新词的长度在2至5个字之间,因此,可通过本步骤可实现对新词的初步筛选。S103,针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇。预设停用词库的停用词是根据汉语语言规则确定的字,在词串特定位置出现时一定不会构成一个有意义的词,停用词分为前停词、后停词和广义停词。前停词一般出现在词尾,很少出现在词首,如“儿、子、然、于、边、么、们、呼”。后停词与前停词相反,很少出现在词尾,如“阿、老”等。广义停词可以根据需要设定为已有的词或是预设定的要删除的词,如通用词典或专业词典中的词。这些前停词、后停词和广义停词构成了停用词数据库。通过预设停用词库对步骤S102的筛选结果中的词进行再次筛选,即可得到新词。S104,若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。判断字符串不属于预设停用词库中的字符串的筛选原则为:所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词。本发明实施例提供了一种基于机器学习的新词识别方法,通过对深度神经网络分词模型对待处理文本进行分词,对分词结果进行字符串长度筛选,和通过预设停用词库进行再次筛选,获取到新词。结合图2,本发明实施例还提供了一种基于机器学习的新词识别方法,该方法用于提高深度神经网络分词模型的分词精度,该方法包括:S201,获取第一预设训练集,所述第一预设训练集为经过人工标注文本类别信息的文本集合。S202,根据所述第一预设训练集,对文本分类模型进行训练。步骤S201和步骤S202是训练文本分类模型的过程,其具体实施过程可通过多种实现方式实现,本发明实施例对此不再赘述。S203,根据所述文本分类模型,判断所述待处理文本的类型。随着互联网的发展,海量的电子文本数据通常涉及到各种领域,以微博或论坛为例,这些平台上包含了大量的用户信息和各种方面的实时热点话题,不同的话题涵盖的信息也是差异很大。例如,以食物、美食等为主题的网络信息,和以电子科技为主题的网络信息,其所包含的内容几乎没有交集,现有技术中通常将来源不同的网络数据加工成统一的文本,通过人工分词构建训练集,通过训练集训练分词模型,这种分词模型的分词结果准确度较低。为解决这一问题,提高分词的准确度,在本发明实施例中,通过训练好的文本分类模型,判断待处理文本的类型。举例来说,一个待处理文本,即一个待分词的文本,可通过多种分词模型对其进行分词,通过本步骤获取该文本的类型,即可使其通过与该类型对应的分词模型进行分词,从而能够提高分词的准确度。S204,根据所述待处理文本的类型,获取与所述待处理文本的类型相对应的第二预设训练集,针对所述第二训练集中的任一文本,所述文本的类型与所述待处理文本的类型相同。举例来说,通过步骤S203判断该待处理文本为一个金融类的文本,则对金融类的语料进行人工分词得到第一预设训练集。当然,在本发明实施例中不限定步骤的先后顺序,可选的,可以预设文本类型,如将网络中出现频率高,数据量大的数据,分为预设类别,如金融类、教育类、娱乐类等,对每一个类别,建立与该类别相对应的训练集,如针对金融类,建立的训练集中的文本都是金融类的文本,针对娱乐类,建立的训练集中的文本都是娱乐类的文本。通过不同类别的训练集分别训练分词模型,得到该类别所对应的分词模型,当需要对一个文本进行分词时,只需要判断该文本的类别,通过该文本的类别获得该类别所对应的分词模型即可,从而提高了对待处理文本分词的精度。准确分词是新词识别的前提和基础,因此通过这种方法,可提高新词识别的准确度。S205,通过所述第二预设训练集,训练所述深度神经网络分词模型。由于第二预设训练集中的文本都是同一类型的文本,且与待处理文本的类型相同,通过第二预设训练集训练得到的深度神经网络分词模型,是专门用来对与第二预设训练集中的文本类型相同的待处理文本进行分词的模型,能够提高对该类型文本分词的准确性。本发明实施例提供了一种基于机器学习的新词识别方法,通过对待处理文本进行类型判断,获得与该待处理文本类型相对应第一预设训练集训练分词模型,此时,第一预设训练集中的文本的类型,与待处理文本的文本类型是相同的,通过这种方法,能够提高分词精度,进而提高了新词识别的准确性。进一步的,结合图3,本发明实施例还提供了一种基于机器学习的新词识别方法,该方法的实现基于图1所对应的实施例所提供的方法,在经过图1所对应的实施例提供的新词识别方法之后,或在图1所对应的实施例提供的新词识别的过程之中,该方法包括:S301,在第一预设时间段内获取第一网页数据,对所述第一网页数据进行预处理得到所述待处理文本。S302,在第二预设时间段内获取第二网页数据,对所述第二网页数据进行预处理得到新的待处理文本,其中所述第二预设时间段为所述第一预设时间段之后的一个时间段。若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则执行该步骤。在本发明实施例中,通过聚焦爬虫,以相同的爬取策略获取所述第一网数据和所述第二网页数据。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。因此,在本步骤中,通过聚焦爬虫以相同的爬取策略,抓取到的第一网页数据与第二网页数据是同一主题的数据,也可称为同一类型的数据。S303,通过所述深度神经网络分词模型,对所述新的待处理文本进行分词处理。该步骤中的深度神经网络分词模型,与步骤S101中的深度神经网络分词模型,是同一个模型。进一步的,该模型是与待处理文本类型相对应的深度神经网络分词模型。S304,获取所述字符串的第一词频和第二词频。其中,所述第一词频为所述字符串在所述待处理文本中出现的次数与所述待处理文本字符串总数目的比值,所述第二词频为所述字符串在所述新的待处理文本中出现的次数与所述新的待处理文本字符串总数目的比值。S305,根据所述第一词频和所述第二词频,判断所述字符串是否为新词。对于一个新词,其应该是在一段时间内多次出现的,如果仅出现几次,或只出现在很短的一段时间内,说明该词不构成称为新词的条件,例如该词为一个人自创的词,只有创造该词的人用过这个词,或该词仅在很短的一段时间,如一天内出现,之后该词不再出现,都说明这个词不是一个新词,仅根据图1所对应的实施例的方法,得到的新词还是会存在一定的错误,此时,可通过本发明实施例提供的方法,进一步提高新词识别的准确度。可选的,可通过两种方法,根据所述第一词频和所述第二词频,判断所述字符串是否为新词。第一种方法为:若所述第一词频大于第一预设值,且所述第二词频大于第二预设值,则判断所述字符串为新词,其中,所述第二预设值大于所述第一预设值。也就是说,对于一个词X,若通过图1所对应的实施例所提供的新词识别方法判定该词为新词,进一步的,还需要判断词X的第一词频和第二词频。举例来说,词X在第一预设时间段内出现的频率,即词X的第一词频大于第一预设值,且词X在第二预设时间段也出现了,且其出现的频率,即其第二词频大于第二预设值,此时可判断该词是连续出现的、且是以一定频率出现的,从而进一步证明了该词为新词的可能性,又由于网络数据具有很强的时效性,尤其是对于新词,网络数据的出现时间距离当前时间越近,其可信度越高,例如一周前的数据就比一年前的数据更具可信度,因此,在本方法中,设置第二预设值大于第一预设值。第二种方法为:根据公式计算所述字符串的可信度,所述公式为:S=af1+bf2其中,S为所述字符串的可信度,f1为所述第一词频,f2为所述第二词频,a+b=1,且a≤b;若所述字符串的可信度大于第三预设值,则判断所述字符串为新词。第二种方法也是基于网络数据的时效性,设置第二词频的权值大于等于第一词频的权值,通过第二种方法,可以判断一个词为新词的可信度,计算得到的值越大,该词为新词的可能性越大。本发明实施例提供了一种基于机器学习的新词识别方法,在该方法中,通过聚焦爬虫爬取主题相同的前后两个时间段的网页数据,当通过图1所对应的实施例的方法初步判断一个词为新词后,根据该词在第一预设时间段的第一词频和第二预设时间段的第二词频进一步判断该词为新词的可能性,只选取可能性高的词作为新词,进一步提高了新词识别的准确性。结合图4,本发明实施例还提供了一种基于机器学习的新词识别方法,该方法应用于上述各实施例之后,该方法包括:S401,获取种子词集,所述种子词集中包括每个词的词向量,所述每个词的词向量的维度相同,所述词向量的每一维用于表示该词的语义特征或语法特征。通过词向量空间模型,对语料中的词进行语义和语法分析,可获得该词的词向量,例如当基于微博语料进行新词识别时,可根据大量的微博数据进行分词,获得种子词集,并通过语义和语法分析,获得种子词集中每个词的词向量,该词向量包含了一个词与其所在的句子中其他词的词性信息、位置信息、上下文信息和情感倾向信息等,种子词集中每个词的词向量的维度相同。S402,对所述新词所在的句子进行语法分析,获得所述新词的词向量。采用同样的方法构建新词的词向量与构建种子词集中词向量。S403,根据所述种子词集中每个词的词向量,和所述新词的词向量,在所述种子词集中匹配出与所述新词相似度最高的词作为所述新词的近义词。词语向量化后,可利用余弦相似度计算词语之间的相似度,具体的,可通过如下公式计算新词w1与种子词集中一个词w2之间的相似度:其中,Cosinew1,w2用于表示w1与词w2之间的相似度,每个词的词向量都包含n个维度,w1i与w2i分别表示w1的词向量在第i个维度的取值和w2在第i个维度的取值。通过本步骤依次计算新词与种子词集中每个词的相似度,将相似度最高的词作为该新词的近义词。S404,在所述新词词库中,通过所述新词的近义词对所述新词进行标注。本发明实施例提供了一种基于机器学习的新词识别方法,该方法基于词向量分析,获取新词的近义词,并通过近义词对该新词进行标注,能够赋予新词以具体的意义。结合图5,本发明实施例提供了一种基于机器学习的新词识别装置示意图,该装置包括:分词单元51、筛选单元52、比对单元53和判断单元54;分词单元51,用于通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;筛选单元52,用于对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;比对单元53,用于针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;判断单元54,用于若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。可选的,该装置还包括第一获取单元55和训练单元56;第一获取单元55,用于获取第一预设训练集,所述第一预设训练集为经过人工标注文本类别信息的文本集合;训练单元56,用于根据所述文本分类模型,判断所述待处理文本的类型;第一获取单元55还用于根据所述待处理文本的类型,获取与所述待处理文本的类型相对应的第二预设训练集,针对所述第二训练集中的任一文本,所述文本的类型与所述待处理文本的类型相同;训练单元56还用于通过所述第二预设训练集,训练所述深度神经网络分析模型。可选的,该装置还包括第二获取单元57和第三获取单元58,用于对第一预设时间段内获取的第一网页数据进行预处理获得所述待处理文本,若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,第二获取单元57还用于在第二预设时间段内获取第二网页数据,对所述第二网页数据进行预处理得到新的待处理文本,其中所述第二预设时间段为所述第一预设时间段之后的一个时间段;分词单元51,还用于通过所述深度神经网络分词模型,对所述新的待处理文本进行分词处理;第三获取单元58,用于获取所述字符串的第一词频和第二词频,其中,所述第一词频为所述字符串在所述待处理文本中出现的次数与所述待处理文本字符串总数目的比值,所述第二词频为所述字符串在所述新的待处理文本中出现的次数与所述新的待处理文本字符串总数目的比值;判断单元54还用于:根据所述第一词频和所述第二词频,判断所述字符串是否为新词。可选的,所述判断单元54具体用于若所述第一词频大于第一预设值,且所述第二词频大于第二预设值,则判断所述字符串为新词,其中,所述第二预设值大于所述第一预设值。或,可选的,所述判断单元54具体用于:根据公式计算所述字符串的可信度,所述公式为:S=af1+bf2其中,S为所述字符串的可信度,f1为所述第一词频,f2为所述第二词频,a+b=1,且a≤b;若所述字符串的可信度大于第三预设值,则判断所述字符串为新词。可选的,第二获取单元57具体用于:通过聚焦爬虫,以相同的爬取策略获取所述第一网页数据和所述第二网页数据。可选的,该装置还包括第四获取单元59、第五获取单元510、匹配单元511和标注单元512;第四获取单元59,用于获取种子词集,所述种子词集收录有所有已知的中文词汇,所述种子词集中包括每个中文词汇的词向量,所述每个中文词汇的词向量的维度相同,所述词向量的每一维用于表示该中文词汇的语义特征或语法特征;第五获取单元510,用于对所述新词所在的句子进行语法分析,获得所述新词的词向量;匹配单元511,用于根据所述种子词集中每个中文词汇的词向量,和所述新词的词向量,在所述种子词集中匹配出与所述新词相似度最高的中文词汇作为所述新词的近义词;标注单元512,用于在所述新词词库中,通过所述新词的近义词对所述新词进行标注。本发明实施例提供了一种基于机器学习的新词识别装置,通过对深度神经网络分词模型对待处理文本进行分词,对分词结果进行字符串长度筛选,和通过预设停用词库进行再次筛选,获取到新词。图6为本发明实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如新词识别程序。所述处理器60执行所述计算机程序62时实现上述各个新词识别方法实施例中的步骤,例如图1所示的步骤101至104,或图2所示的步骤201至205,或图3所示的301至305,或图4所示的步骤401至404。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块单元的功能,例如图5所示模块51至512的功能。示例性的,所述计算机程序62可以被分割成一个或多个模块单元,所述一个或者多个模块单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。所述处理器60可以是中央处理单元CentralProcessingUnit,CPU,还可以是其他通用处理器、数字信号处理器DigitalSignalProcessor,DSP、专用集成电路ApplicationSpecificIntegratedCircuit,ASIC、现成可编程门阵列Field-ProgrammableGateArray,FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡SmartMediaCard,SMC,安全数字SecureDigital,SD卡,闪存卡FlashCard等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述新词识别方法的步骤。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备可以是个人计算机,服务器,或者网络设备等执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器ROM,Read-OnlyMemory、随机存取存储器RAM,RandomAccessMemory、磁碟或者光盘等各种可以存储程序代码的介质。以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

权利要求:1.一种基于机器学习的新词识别方法,其特征在于,该方法包括:通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。2.根据权利要求1所述的新词识别方法,其特征在于,该方法还包括:获取第一预设训练集,所述第一预设训练集为经过人工标注文本类别信息的文本集合;根据所述第一预设训练集,对文本分类模型进行训练;根据所述文本分类模型,判断所述待处理文本的类型;根据所述待处理文本的类型,获取与所述待处理文本的类型相对应的第二预设训练集,针对所述第二训练集中的任一文本,所述文本的类型与所述待处理文本的类型相同;通过所述第二预设训练集,训练所述深度神经网络分析模型。3.根据权利要求1所述的新词识别方法,其特征在于,所述待处理文本是通过对第一预设时间段内获取的第一网页数据进行预处理获得的,若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,该方法还包括:在第二预设时间段内获取第二网页数据,对所述第二网页数据进行预处理得到新的待处理文本,其中所述第二预设时间段为所述第一预设时间段之后的一个时间段;通过所述深度神经网络分词模型,对所述新的待处理文本进行分词处理;获取所述字符串的第一词频和第二词频,其中,所述第一词频为所述字符串在所述待处理文本中出现的次数与所述待处理文本字符串总数目的比值,所述第二词频为所述字符串在所述新的待处理文本中出现的次数与所述新的待处理文本字符串总数目的比值;根据所述第一词频和所述第二词频,判断所述字符串是否为新词。4.根据权利要求3所述的新词识别方法,其特征在于,所述根据所述第一词频和所述第二词频,判断所述字符串是否为新词包括:若所述第一词频大于第一预设值,且所述第二词频大于第二预设值,则判断所述字符串为新词,其中,所述第二预设值大于所述第一预设值。5.根据权利要求3所述的新词识别方法,其特征在于,所述根据所述第一词频和所述第二词频,判断所述字符串是否为新词包括:根据公式计算所述字符串的可信度,所述公式为:S=af1+bf2其中,S为所述字符串的可信度,f1为所述第一词频,f2为所述第二词频,a+b=1,且a≤b;若所述字符串的可信度大于第三预设值,则判断所述字符串为新词。6.根据权利要求3所述的新词识别方法,其特征在于,该方法还包括:通过聚焦爬虫,以相同的爬取策略获取所述第一网页数据和所述第二网页数据。7.根据权利要求1-6任一项所述的新词识别方法,其特征在于,判断所述字符串为新词之后,该方法还包括:获取种子词集,所述种子词集收录有所有已知的中文词汇,所述种子词集中包括每个中文词汇的词向量,所述每个中文词汇的词向量的维度相同,所述词向量的每一维用于表示该中文词汇的语义特征或语法特征;对所述新词所在的句子进行语法分析,获得所述新词的词向量;根据所述种子词集中每个中文词汇的词向量,和所述新词的词向量,在所述种子词集中匹配出与所述新词相似度最高的中文词汇作为所述新词的近义词;在所述新词词库中,通过所述新词的近义词对所述新词进行标注。8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。10.根据权利要求9所述的终端设备,其特征在于,所述处理器执行所述计算机程序还用于实现:获取第一预设训练集,所述第一预设训练集为经过人工标注文本类别信息的文本集合;根据所述第一预设训练集,对文本分类模型进行训练;根据所述文本分类模型,判断所述待处理文本的类型;根据所述待处理文本的类型,获取与所述待处理文本的类型相对应的第二预设训练集,针对所述第二训练集中的任一文本,所述文本的类型与所述待处理文本的类型相同;通过所述第二预设训练集,训练所述深度神经网络分析模型。

百度查询: 平安科技(深圳)有限公司 基于机器学习的新词识别方法及终端设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。