买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:昆明理工大学
摘要:本发明公开了一种从老挝‑汉语篇章级对齐语料中抽取对齐语句的方法,属于自然语言处理和机器学习技术领域。本发明首先将篇章级对齐的语料使用python进行正则表达式的处理,去除掉噪音数据,并作为输入,由于老挝语与中文的句子排序是一致的,所以可以先将篇章级的语料处理为单个的对齐语句,之后将对齐的语句进行拆分。之后将这些对齐的语句进行分词,将分词的此语作为LSTM的输入,通过保留LSTM编码器对输入序列的中间输出结果,训练一个模型来对这些输入进行选择性地学习并且在模型输出时将输出序列进行关联,从而从双语语料库中抽取出平行句对。本发明在老挝语平行句对抽取上有一定的研究意义。
主权项:1.一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,其特征在于:包括如下步骤:Step1,将汉-老双语语料先通过python代码使用正则表达式来进行噪声处理,然后对这些对齐片段进行数据集划分,其中,已对齐的训练集占90%,乱序测试集占10%;Step2,根据训练集以及测试集的句子,统计其中的互异的词组,以及每个词组出现的次数,经过word-embedding计算句子的词向量;Step3,将Step2得出词向量作为LSTM算法的输入,即此时LSTM算法作为encoder部分,并将这些词向量作为encoder端的输入,encoder部分通过LSTM算法的初始化向量进行相似度计算;Step4,每个词向量经由encoder部分输出,经过softmax函数,求出各个句子词向量的语义编码C,组成一个向量序列;Step5,将Step4中得到的向量序列,作为decoder部分的初始输入,在decoder部分加入了Attention机制,解码的时候,每一步都会选择性地从语义编码C的向量序列中挑选一个子集进行进一步的处理;所以在decoder部分中,每个时刻的输出作为下一时刻的输入,每一个输出,都能够做到充分利用输入序列携带的信息,以此类推,直到结尾;Step6,经过encoder与decoder部分的相似度的计算,得出相似度最高的句子词向量,通过词向量来组成的句子,从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。
全文数据:一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法技术领域本发明涉及一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,特别是一种基于LSTMLongShort-TermMemory长短期记忆网络的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,属于自然语言处理和机器学习技术领域。背景技术双语语料是统计机器翻译、跨语言检索、双语词典构建等研究领域的重要基础资源,双语语料的数量与质量很大程度上影响甚至决定了相关任务的最终结果。而平行句对的挖掘则是构建双语语料的关键技术,因而具有重要的研究价值。很多情况下,双语语料我们可以获得,但是得到的文本通常并不是以句子为单位对齐的,例如有些是以段落或者按照整篇文章来对齐的。这种情况下,就需要将这些不是以句子为单位对齐的语料整理成句子对齐格式,从而进行平行句对的抽取。发明内容本发明要解决的技术问题是:提供一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,用于解决从汉语-老挝语的对齐语料中抽取对齐语句,能够有效提高句子对齐的准确率。本发明采用的技术方案是:一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,包括如下步骤:Step1,将汉-老双语语料先通过python代码使用正则表达式来进行噪声处理,然后对这些对齐片段进行数据集划分,其中,已对齐的训练集占90%,乱序测试集占10%;Step2,根据训练集以及测试集的句子,统计其中的互异的词组,以及每个词组出现的次数,经过word-embedding计算句子的词向量;Step3,将Step2得出词向量作为LSTM算法的输入,即此时LSTM算法作为encoder部分,并将这些词向量作为encoder端的输入,encoder部分通过LSTM算法的初始化向量进行相似度计算;Step4,每个词向量经由encoder部分输出,经过softmax函数,求出各个句子词向量的语义编码C,组成一个向量序列;Step5,将Step4中得到的向量序列,作为decoder部分的初始输入,在decoder部分加入了Attention机制,解码的时候,每一步都会选择性地从语义编码C的向量序列中挑选一个子集进行进一步的处理;所以在decoder部分中,每个时刻的输出作为下一时刻的输入,每一个输出,都能够做到充分利用输入序列携带的信息,以此类推,直到结尾;Step6,经过encoder与decoder部分的相似度的计算,得出相似度最高的句子词向量,通过词向量来组成的句子,从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。具体地,所述Step1中所述的对齐片段为经过噪声处理过后的对齐篇章语料。具体地,所述Step2通过python编码,对最初的篇章级对齐语料进行句子分词,通过代码实现单个句子老挝语句子以及中文句子的分词,并统计词数。具体地,所述Step3的具体步骤如下:输入分出来的句子,将句子进行分词,经过word-embedding之后作为输入,输入到LSTM中,然后经过隐藏层得出隐藏层信息h1,h2,...,在这个时候encoder部分的第一个时刻的hidden-state假设为Z0初始变量,然后使用Z0和h1,h2,...进行相似度计算,得出各个时刻的a10,a20,a30,…aij,其中,a的下标i表示encoder中隐藏层信息的下标,a的下标j表示神经网络的初始变量的下标。具体地,所述步骤Step5在decoder阶段每一步解码,都能够有一个输入,对输入序列所有隐藏层的信息h1,h2,…ht进行加权求和,也就是每次在预测下一个词时都会把所有输入序列的隐藏层信息都看一遍,决定预测当前词时和输入序列的那些词最相关,Attention机制代表了在解码decoder阶段,每次都会输入一个上下文的向量Ci,隐藏层的新状态Si根据上一步的状态Si-1,Yi,Ci三者的一个非线性函数得出,如公式1,其中Ci为encoder阶段的每时刻输出状态的加权平均和,求解方式为公式2,Si-1,Yi分别为decoder阶段的前一状态和前一次输出的预测值,这里hj为encoder阶段的每个时刻输出状态,aij为每个decoder阶段的输入i对应的hj的权重值大小;Si=FSi-1,Yi,Ci1具体地,所述步骤Step6在经过相似度计算之后,通过词向量来组成的句子,从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。本发明的有益效果是:1该基于基于LSTM的从老挝-汉语篇章级对齐语料中抽取对齐语句方法中,相对比单方面的encoder-decoder的算法模型在汉语-老挝语抽取中准确率有所提高。2该基于LSTM的从老挝-汉语篇章级对齐语料中抽取对齐语句方法中,使用了LSTM算法,相比较其他算法,在特征提取的效果上有了比较不错的提高。3该基于LSTM的从老挝-汉语篇章级对齐语料中抽取对齐语句方法中,融入老挝语语法特征以及中文的语法特征,通过深度学习可以自动识别出来,相比于人工识别,速度更快,泛化性更强,省时省力。附图说明图1为本发明中的流程图;图2为本发明所使用的LSTM训练词向量的基本结构图;图3为本发明Attention机制的encoder-decoder模型示意图;图4是本发明Attention模型计算词向量示意图。具体实施方式实施例1:如图1-4所示,一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,包括如下步骤::Step1,将汉-老双语语料先通过python代码使用正则表达式来进行噪声处理,然后对这些对齐片段进行数据集划分,其中,已对齐的训练集占90%,乱序测试集占10%;Step2,根据训练集以及测试集的句子,统计其中的互异的词组,以及每个词组出现的次数,经过word-embedding计算句子的词向量;Step3,将Step2得出词向量作为LSTM算法的输入,即此时LSTM算法作为encoder部分,并将这些词向量作为encoder端的输入,encoder部分通过LSTM算法的初始化向量进行相似度计算;Step4,每个词向量经由encoder部分输出,经过softmax函数,求出各个句子词向量的语义编码C,组成一个向量序列;Step5,将Step4中得到的向量序列,作为decoder部分的初始输入,在decoder部分加入了Attention机制,解码的时候,每一步都会选择性地从语义编码C的向量序列中挑选一个子集进行进一步的处理;所以在decoder部分中,每个时刻的输出作为下一时刻的输入,每一个输出,都能够做到充分利用输入序列携带的信息,以此类推,直到结尾;Step6,经过encoder与decoder部分的相似度的计算,得出相似度最高的句子词向量,通过词向量来组成的句子,从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。进一步地,所述Step1中所述的对齐片段为经过噪声处理过后的对齐篇章语料。进一步地,所述Step2通过python编码,对最初的篇章级对齐语料进行句子分词,通过代码实现单个句子老挝语句子以及中文句子的分词,并统计词数。进一步地,所述Step3的具体步骤如下:输入分出来的句子,将句子进行分词,经过word-embedding之后作为输入,输入到LSTM中,然后经过隐藏层得出隐藏层信息h1,h2,...,在这个时候encoder部分的第一个时刻的hidden-state假设为Z0初始变量,然后使用Z0和h1,h2,...进行相似度计算,得出各个时刻的a10,a20,a30,…aij,其中,a的下标i表示encoder中隐藏层信息的下标,a的下标j表示神经网络的初始变量的下标。进一步地,所述步骤Step5在decoder阶段每一步解码,都能够有一个输入,对输入序列所有隐藏层的信息h1,h2,…ht进行加权求和,也就是每次在预测下一个词时都会把所有输入序列的隐藏层信息都看一遍,决定预测当前词时和输入序列的那些词最相关,Attention机制代表了在解码decoder阶段,每次都会输入一个上下文的向量Ci,隐藏层的新状态Si根据上一步的状态Si-1,Yi,Ci三者的一个非线性函数得出,如公式1,其中Ci为encoder阶段的每时刻输出状态的加权平均和,求解方式为公式2,Si-1,Yi分别为decoder阶段的前一状态和前一次输出的预测值,这里hj为encoder阶段的每个时刻输出状态,aij为每个decoder阶段的输入i对应的hj的权重值大小;Si=FSi-1,Yi,Ci1进一步地,所述步骤Step6在经过相似度计算之后,通过词向量来组成的句子,从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。双语语料库最为作为自然语言研究领域的重要语言资源,语言信息处理的研究深入,在语料的获取,处理有了长足的进步。本发明主要融合了老挝语语言学特征到算法模型中,在模型的使用中选择了多种模型融合的方法,提高识别精度,使用Attention机制注意力机制,并拿LSTM作为encoder-decoder编码器-解码器。首先将篇章级对齐的语料使用python进行正则表达式的处理,去除掉噪音数据,并作为输入,由于老挝语与中文的句子排序是一致的,所以可以先将篇章级的语料处理为单个的对齐语句,之后将对齐的语句进行拆分。之后将这些对齐的语句进行分词,将分词的此语作为LSTM的输入,通过保留LSTM编码器对输入序列的中间输出结果,训练一个模型来对这些输入进行选择性地学习并且在模型输出时将输出序列进行关联,从而从双语语料库中抽取出平行句对。本发明在老挝语平行句对抽取上有一定的研究意义。以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
权利要求:1.一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,其特征在于:包括如下步骤:Step1,将汉-老双语语料先通过python代码使用正则表达式来进行噪声处理,然后对这些对齐片段进行数据集划分,其中,已对齐的训练集占90%,乱序测试集占10%;Step2,根据训练集以及测试集的句子,统计其中的互异的词组,以及每个词组出现的次数,经过word-embedding计算句子的词向量;Step3,将Step2得出词向量作为LSTM算法的输入,即此时LSTM算法作为encoder部分,并将这些词向量作为encoder端的输入,encoder部分通过LSTM算法的初始化向量进行相似度计算;Step4,每个词向量经由encoder部分输出,经过softmax函数,求出各个句子词向量的语义编码C,组成一个向量序列;Step5,将Step4中得到的向量序列,作为decoder部分的初始输入,在decoder部分加入了Attention机制,解码的时候,每一步都会选择性地从语义编码C的向量序列中挑选一个子集进行进一步的处理;所以在decoder部分中,每个时刻的输出作为下一时刻的输入,每一个输出,都能够做到充分利用输入序列携带的信息,以此类推,直到结尾;Step6,经过encoder与decoder部分的相似度的计算,得出相似度最高的句子词向量,通过词向量来组成的句子,从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。2.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,其特征在于:所述Stepl中所述的对齐片段为经过噪声处理过后的对齐篇章语料。3.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,其特征在于:所述Step2通过python编码,对最初的篇章级对齐语料进行句子分词,通过代码实现单个句子老挝语句子以及中文句子的分词,并统计词数。4.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,其特征在于:所述Step3的具体步骤如下:输入分出来的句子,将句子进行分词,经过word-embedding之后作为输入,输入到LSTM中,然后经过隐藏层得出隐藏层信息h1,h2,...,在这个时候encoder部分的第一个时刻的hidden-state假设为Z0初始变量,然后使用Z0和h1,h2,...进行相似度计算,得出各个时刻的a10,a20,a30,…aij,其中,a的下标i表示encoder中隐藏层信息的下标,a的下标j表示神经网络的初始变量的下标。5.根据权利要求4所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,其特征在于:所述步骤Step5在decoder阶段每一步解码,都能够有一个输入,对输入序列所有隐藏层的信息h1,h2,…ht进行加权求和,也就是每次在预测下一个词时都会把所有输入序列的隐藏层信息都看一遍,决定预测当前词时和输入序列的那些词最相关,Attention机制代表了在解码decoder阶段,每次都会输入一个上下文的向量Ci,隐藏层的新状态Si根据上一步的状态Si-1,Yi,Ci三者的一个非线性函数得出,如公式1,其中Ci为encoder阶段的每时刻输出状态的加权平均和,求解方式为公式2,Si-1,Yi分别为decoder阶段的前一状态和前一次输出的预测值,这里hj为encoder阶段的每个时刻输出状态,aij为每个decoder阶段的输入i对应的hj的权重值大小;Si=FSi-1,Yi,Ci1。6.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,其特征在于:所述步骤Step6在经过相似度计算之后,通过词向量来组成的句子,从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。
百度查询: 昆明理工大学 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。