首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】融合主题信息的篇章级神经机器翻译方法_昆明理工大学_202210665757.7 

申请/专利权人:昆明理工大学

申请日:2022-06-14

公开(公告)日:2024-06-21

公开(公告)号:CN115048946B

主分类号:G06F40/58

分类号:G06F40/58;G06F40/42;G06F40/242;G06F40/30;G06F40/216;G06N3/0455

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2022.09.30#实质审查的生效;2022.09.13#公开

摘要:本发明涉及融合主题信息的篇章级神经机器翻译方法,属自然语言处理领域。先对篇章级平行语料进行预处理并进行BPE分词;再利用词嵌入主题模型训练源语言篇章主题,对篇章文本进行向量化表征,得到文本中每个单词的词嵌入,后在神经机器翻译模型编码端,将主题模型表征的词嵌入与源语言词嵌入相加作为输入,训练翻译模型。本发明使用主题模型得到主题信息,并将主题信息通过词嵌入的方式融合到源语言编码中,在编码阶段提供更多的上下文信息,改善篇章级神经机器翻译中的代词一致性问题,在英‑德、英‑法,汉‑英语言对上相较于ContextAware‑Transformer模型,分别提高了0.26、0.27以及0.29个BLEU值。

主权项:1.融合主题信息的篇章级神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、使用双语数据,对其进行上下文对齐、BPE分词相关预处理后用于训练;Step2、对源语言篇章语料的上下文句子进行去除低频词和高频词,以及生成词表处理后,使用开源的ETM主题词嵌入模型训练主题词嵌入,并抽取主题词嵌入;Step3、将训练得到的主题词嵌入进行向量相加,得到单一的词嵌入向量,并分别与对应上下文句子的每个向量进行相加得到最终的词嵌入,将最终的词嵌入作为翻译模型的上下文编码器的输入;Step4、最后,先用不带上下文的双语语料预训练一个Transformer模型,固定Transformer模型的编码器和解码器参数,在此基础上,引入一个额外的上下文编码器编码上下文句子,以及引入一个额外的注意力层将上下文信息和Transformer的当前句子信息相关联,并通过一个门控机制作为编码端最终的输出;所述Step3的具体步骤为:Step3.1、首先利用主题模型训练获得的词嵌入列表,对上下文句子分词之后,通过查询词表得到上下文句子的主题词嵌入表示;然后将主题词嵌入表示的每个词嵌入进行加和,得到单一的词嵌入向量topics,如公式5所示: 其中ti为句子的第i个主题词嵌入,m为词个数;Step3.2、最后将topics与上下文句子进行词嵌入后的每个词嵌入向量xi相加得到最终的上下文编码器的输入E={e1,e2,e3,...,em},如下公式6所示:ei=xi+topics6所述Step4的具体步骤为:Step4.1、对于给定的源语言文档的k个句子序列X=x1,x2,...,xk,代表源语言的第k句话包含I个词,对应的目标语言文档的k个句子序列为Y=y1,y2,...,yk,代表目标语言的第k句话包含J个词,因此将篇章翻译的概率表示如公式7所示: 其中表示已翻译出的前m-1个词,X<k表示第k句的上下文句子;Step4.2、篇章神经机器翻译模型采用和Transformer相同的词嵌入方式,编码器以及解码器;为了体现语料的词在句子中不同位置的区别以及先后顺序,在计算词嵌入矩阵之后采用位置嵌入加入位置特征,如式8、式9所示: 编码器的核心是自注意力部分,如式10所示: 其中,Q,K,V均为输入词向量矩阵,dk为输入向量维度,自注意力机制计算句子中的每个词与这句话中的所有词之间的关联程度,利用计算得到的关联程度对每个词进行加权求和就能得到每个词的新的语义表征;此外还采用了多头注意力模式,扩展了模型专注与不同位置的能力,给出了注意力层的多个表示子空间,如式11、式12所示:MultiHeadQ,K,V=Concathead1,...,headhWo11headi=AttentionQWiQ,KWiK,VWiV12Step4.3、篇章机器翻译模型引入了一个上下文编码器和上下文注意力层,将上下文句子的表征和当前句子的表征通过一个上下文注意力层得到新的表征,上下文注意力层的Q是当前句子编码器输出的句子的表征矩阵,K,V是上下文编码器输出的上下文句子的表征矩阵;为了平衡混合了上下文表征后的新的句子表征与当前句子表征的权重,在计算混合上下文表征时加入了一个上下文门控,如公式13、式14所示:gj=σWg[sj,cj]+bg13sj=gj⊙sj+1-gj⊙cj14其中sj是当前句子编码器的输出,cj是上下文注意力层的输出,σ是sigmoid函数;最后在解码时通过多头注意力机制在结合从编码器中得到混合上下文表征,从而得到一个输出,之后将输出与上一次的输入合并再作为解码器的输入,直到输出一个结束的提示。

全文数据:

权利要求:

百度查询: 昆明理工大学 融合主题信息的篇章级神经机器翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。