首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种具有文档嵌入的神经机器翻译方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南通大学

摘要:本发明提供了一种基于文档嵌入的神经机器翻译方法,属于自然语言处理技术领域。其技术方案为:首先,我们对语料库进行处理,针对具有明确边界的语料,将边界内的所有句子定义为一个文档,全局文档或者局部文档嵌入作为标记放在句子前,组合后的源嵌入和句子的目标翻译结果输入到模型中;然后,在语料库上训练一个文档级增强的神经机器翻译模型,该模型使用Transformer的编码器和解码器来处理输入的两组句子;接着,在编码器阶段有6个自注意力隐藏层和前馈层,来提取句子特征;最后,计算源句子和目标句子之间的相似度,以获得句子翻译的BLEU分数。本发明的有益效果为:预测准确率提高,帮助使用者更准确地获得文档的翻译结果。

主权项:1.一种基于文档嵌入的神经机器翻译方法,其特征在于,包括以下步骤:S10:翻译数据集中包含了训练、验证和测试部分,输入翻译数据集得到由多个文档组成的语料库{T1,...,Tk,...,TK},文档Tk包含一系列句子文档中句子aj的单词表示为S20:全局文档是由语料库中的整个文档Tk生成的,局部文档bj是由当前句子的周围句子生成的,源语言数据和目标语言数据经过分词、填充截断词处理操作,经过模型的嵌入后,a句子嵌入表示为Ea={X1,...,Xi,...,Xn},接着计算每个文档T的全局文档嵌入ET和局部嵌入Eb;S30:输入句子a的源嵌入为s={ET,Eb,X1,...,Xi,...,Xn},输入目标句子为y={y1,...,yi,...,yn},目标句子经过模型的嵌入后为Ey={Y1,...,Yi,...,Yn};S40:将源嵌入s和目标句子嵌入Ey都加上位置信息编码Epos,其中pos表示位置,然后输入到Transformer编码器模块的多头注意力中,进行L次循环,则第j次循环得到的结果为Xi,重复L轮得到输出XL,在每一轮计算过程中,记录下每一个Transformer模块中的注意力矩阵Ak,k=1,2,...,L,将最后一次的注意力矩阵经过位置全连接前馈网络,然后和目标句子的嵌入矩阵一起输入到解码器中,在解码部分采用了BeamSearch算法,通过softmax激活函数映射成概率分布,每个时间步都会保留当前步为止条件概率最优的i个序列,最终得到的输出序列为每一步条件概率连乘最大的;S50:模型翻译的句子和目标句子计算BLEU来表示模型的翻译性能,在训练集和验证集上获得翻译性能最好的模型参数;S60:测试集数据经过上述步骤S1至S4,得到最后的目标翻译句子。

全文数据:

权利要求:

百度查询: 南通大学 一种具有文档嵌入的神经机器翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。