一种基于神经翻译的双向解码自动语法改错模型

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京先声智能科技有限公司

摘要：本发明公开了一种基于神经翻译的双向解码自动语法改错模型，其技术方案要点是包括编码器、双向解码器、注意力机制和目标函数，所述编码器为一种由多层单双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中，所述目标函数为改错模型的具体参数设置。本发明的一种基于神经翻译的双向解码自动语法改错模型采用了字母级别的编码器，来解决由于大量拼写错误导致的OOV问题。

主权项：1.一种基于神经翻译的双向解码自动语法改错模型，其特征在于：包括编码器、双向解码器、注意力机制和目标函数，所述编码器为字母级别编码器,为一种由多层单双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中,所述目标函数为改错模型的具体参数设置；其中，所述注意力机制采用全局的梁氏注意力LuongAttention机制，其表示方式为：其中，ht是解码器隐状态，hs是编码器第s个输出，s＝1,2,…,N；其中，所述双向解码器在以单词级别逐词解码生成句子的过程，包括：正向解码和反向解码，所述双向解码器用于语法改错。

全文数据：一种基于神经翻译的双向解码自动语法改错模型技术领域本发明涉及一种基于神经翻译的双向解码自动语法改错模型。背景技术自动语法改错GrammaticalErrorCorrection，GEC主要有基于机器翻译、基于语言模型、基于分类模型等方法。其中目前效果最佳的是基于机器翻译模型的方法，该方法的原理是把需要进行纠正的语言作为源语言，把改错后的语言作为目标语言的翻译过程。基于词组的统计翻译模型Phrase-basedModel是主流的方法之一。该方法先在训练数据上用IBMModel找出源语言的词组与目标语言词组之间的对应关系，并统计出相应的词组对的概率，然后在语言模型的支持下完成翻译过程。在公开的测试数据集上，比起非机器翻译的模型，性能有了很大的提升。随着基于注意力机制的编码器解码器模型encoder-decoder对机器翻译效果的巨大提升，该方法也被运用于GEC任务。在有大量平行语料的支持下，目前基于卷积神经网络编码的神经翻译模型与Transformer，在公开数据集上超过了基于统计翻译的模型。目前，基于编码器解码器模型的自动语法改错系统，主要有字母级别的编码器解码器结构与单词级别的编码器解码器结构。然而，字母级别的语义表征虽然可以很好的解决Out-Of-VocabularyOOV问题，但其对于深层语义的表征要弱于单词级别的，在GEC问题中，纯粹的字母级别编码效果差于单词级别的GEC系统。虽然单词级别的语义表征比起字母级别的语义表征可以更好地捕捉深层语义，但是由于GEC问题中，源语言会有大量的拼写错误，导致严重的OOV、词汇分布稀疏等问题，需要先做拼写校正才能取得较好的效果。目前主流的GEC系统中，解码过程采用是循环神经网络结合注意力机制，顺序逐词解码的过程，有正向按照句子顺序解码、反向按照从句子最后一词到句子第一个词的顺序解码。在语法改错任务中，有的错误需要正向解码如：Hehasgotoschool，根据has推理出后面一个词应该用完成时gone；而有时逆向解码更加匹配，如：Ihaveaapple，根据apple推理出定冠词需要用an。有相关的工作采用了多轮纠错，正向解码与逆向解码交替进行，来解决该问题。多轮纠错可以有效提高召回率Recall，但会降低精准率Precision。而在GEC这个任务中，用户对于精准率更加敏感。发明内容针对现有技术存在的不足，本发明的目的在于提供一种采用了字母级别的编码器，来解决由于大量拼写错误导致的OOV问题的基于神经翻译的双向解码自动语法改错模型。为实现上述目的，本发明提供了如下技术方案：一种基于神经翻译的双向解码自动语法改错模型，包括编码器、双向解码器、注意力机制和目标函数，所述编码器为一种由多层单双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中，所述目标函数为改错模型的具体参数设置。本发明进一步设置为：所述编码器为字母级别编码器，所述的字母级别编码器由多层循环网络构成。本发明进一步设置为：所述的字母级别编码器表示方式为：输入句子的字母序列的嵌入表示：其中N为输入长度将该Xenc0输入到编码器中：其中i＝1，2，…，L，L为编码器的层数。本发明进一步设置为：所述双向解码器采用结合注意力机制的多层RNN结构。本发明进一步设置为：所述的双向解码器中正向解码器的输入的one-hot序列：Yfw＝[y0，y1，y2，...，yM]，相应的词向量表示为ωjw＝[w0，w1，w2，...，wM]，其中Attentionfw表示正向注意力函数下文详述，hjfw正向隐状态，XencL是编码器的输出，Wprojfw是投影矩阵，由训练得到，pjfw是输出的概率分布，yjfw表示的概率，j＝1，2，…，M。本发明进一步设置为：所述的双向解码器中反向解码器的one-hot输入序列：相应的词向量表示为ωbw＝wM+1，wM，wM-1，...，w1]；其中wM+1＝w0，为句子的初始输入；其中Attentionbw表示反向注意力函数下文详述，hjbw反向隐状态，XencL是编码器的输出，Wprojbw是投影矩阵，由训练得到，pjbw是输出的概率分布，yjbw表示的概率，j＝M，M-1，…，1。本发明进一步设置为：所述注意力机制采用全局的LuongAttention机制，其表示方式为：其中ht是解码器隐状态，hs是编码器第s个输出，s＝1，2，…，N。本发明进一步设置为：所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。本发明进一步设置为：所述的正向损失函数为：所述的反向损失函数为：所述的Kullback-Leibler散度为：所述的总目标函数为：其中，a，b，c∈[0，1]，a+b+c＝1。本发明进一步设置为：θenc为编码器的参数，为正向注意力机制的参数，为正向解码器参数，为反向注意力参数，为反向解码器参数。本发明具有下述优点：采用了字母级别的编码器，来解决由于大量拼写错误导致的OOV问题；单词级别的解码器，用来更好地捕捉深层语义信息。解码器由正向解码器与逆向解码器构成，解码过程双向解码同时进行。目标函数的设计中，除了正反向解码相应的交叉熵，另外引入Kullback-Leibler散度来使正反向解码得到的概率分布互相逼近。附图说明图1为本发明的模型结构图。具体实施方式参照图1所示，本实施例的一种基于神经翻译的双向解码自动语法改错模型，包括编码器、双向解码器、注意力机制和目标函数，所述编码器为一种由多层单双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中，所述目标函数为改错模型的具体参数设置。所述编码器为字母级别编码器，所述的字母级别编码器由多层循环网络构成。所述的字母级别编码器表示方式为：输入句子的字母序列的嵌入表示：其中N为输入长度将该Xenc0输入到编码器中：其中i＝1，2，…，L，L为编码器的层数。所述双向解码器采用结合注意力机制的多层RNN结构。所述的双向解码器中正向解码器的输入的one-hot序列：Yfw＝[y0，y1，y2，...，yM]，相应的词向量表示为ωfw＝[w0，w1，w2，...，wM]，其中Attentionfw表示正向注意力函数下文详述，hjfw正向隐状态，XencL是编码器的输出，Wprojfw是投影矩阵，由训练得到，pjfw是输出的概率分布，yjfw表示的概率，j＝1，2，…，M。所述的双向解码器中反向解码器的one-hot输入序列：相应的词向量表示为ωbw＝[wM+1，wM，wM-1，...，w1]；其中wM+1＝w0，为句子的初始输入；其中Attentionbw表示反向注意力函数下文详述，hjbw反向隐状态，XencL是编码器的输出，Wprojbw是投影矩阵，由训练得到，pjbw是输出的概率分布，yjbw表示的概率，j＝M，M-1，…，1。所述注意力机制采用全局的LuongAttention机制，其表示方式为：其中ht是解码器隐状态，hs是编码器第s个输出，s＝1，2，…，N。所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。所述的正向损失函数为：所述的反向损失函数为：所述的Kullback-Leibler散度为：所述的总目标函数为：其中，a，b，c∈[0，1]，a+b+c＝1。θenc为编码器的参数，为正向注意力机制的参数，为正向解码器参数，为反向注意力参数，为反向解码器参数。技术效果表1GEC任务的主要评价指标为M2与GLEU，在先声GEC测试集上，与单向系统相比，该双向解码的方法在M2与GLEU两个指标上均取得了显著的提高。1.编码器与解码器的RNN结构可以是GRU、LSTM等变体，编码器也可以采用卷积神经网络进行编码。2.目标函数中的Kullback-Leibler散度也可由EuclideanDistance，CosineDistance等替代。3.LuongAttention可以由其它注意力机制，如BahdanauAttention等。以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

权利要求：1.一种基于神经翻译的双向解码自动语法改错模型，其特征在于：包括编码器、双向解码器、注意力机制和目标函数，所述编码器为一种由多层单双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中，所述目标函数为改错模型的具体参数设置。2.根据权利要求1所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述编码器为字母级别编码器，所述的字母级别编码器由多层循环网络构成。3.根据权利要求2所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述的字母级别编码器表示方式为：输入句子的字母序列的嵌入表示：其中N为输入长度将该Xenc0输入到编码器中：其中i＝1，2，…，L，L为编码器的层数。4.根据权利要求1所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述双向解码器采用结合注意力机制的多层RNN结构。5.根据权利要求4所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述的双向解码器中正向解码器的输入的one-hot序列：Yfw＝[y0，y1，y2，...，yM]，相应的词向量表示为ωfw＝[w0，w1，w2，...，wM]，其中Attentionfw表示正向注意力函数下文详述，hjfw正向隐状态，XencL是编码器的输出，Wprojfw是投影矩阵，由训练得到，pjfw是输出的概率分布，yjfw表示的概率，j＝1，2，…，M。6.根据权利要求4所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述的双向解码器中反向解码器的one-hot输入序列：相应的词向量表示为ωbw＝[wM+1，wM，wM-1，...，w1]；其中wM+1＝w0，为句子的初始输入；其中Attentionbw表示反向注意力函数下文详述，hjbw反向隐状态，XencL是编码器的输出，Wprojbw是投影矩阵，由训练得到，pjbw是输出的概率分布，yjbw表示的概率，j＝M，M-1，…，1。7.根据权利要求1所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述注意力机制采用全局的LuongAttention机制，其表示方式为：其中ht是解码器隐状态，hs是编码器第s个输出，s＝1，2，…，N。8.根据权利要求1所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。9.根据权利要求8所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述的正向损失函数为：所述的反向损失函数为：所述的Kullback-Leibler散度为：所述的总目标函数为：其中，a，b，c∈[0，1]，a+b+c＝1。10.根据权利要求9所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：θenc为编码器的参数，为正向注意力机制的参数，为正向解码器参数，为反向注意力参数，为反向解码器参数。

百度查询：北京先声智能科技有限公司一种基于神经翻译的双向解码自动语法改错模型

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于神经翻译的双向解码自动语法改错模型

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务