首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于降噪原型序列的汉越神经机器翻译方法_昆明理工大学_202210787747.0 

申请/专利权人:昆明理工大学

申请日:2022-07-06

公开(公告)日:2024-06-21

公开(公告)号:CN115034239B

主分类号:G06F40/58

分类号:G06F40/58;G06F40/211;G06F40/295;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2022.09.30#实质审查的生效;2022.09.09#公开

摘要:本发明涉及基于降噪原型序列的汉越神经机器翻译方法,属自然语言处理领域。本发明包括:将汉语和越南语的句子语映射到向量空间,利用跨语言相似性检索出目标端原型序列;接着将子词粒度原型序列进行还原为音节粒度,再依据构建好的实体词典做噪声掩盖;之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配;最后将处理好的原型序列作为模板信息,应用在双编码器‑单解码器结构,指导翻译任务。针对汉越数据集的实验结果表明,与当前最优模型相比,本发明在利用越南语单语数据缓解双语资源匮乏的同时,将原型序列进行噪声过滤并将其中对机器翻译有益的知识特征进行增强,有效提升了汉越机器翻译的性能。

主权项:1.基于降噪原型序列的汉越神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、将汉语-越南语平行语料、越南语候选句子库进行分词处理,并利用Underthesea-VietnamNLP工具构建越南语单语词典;Step2、将词粒度的汉语句子、子词粒度越南语候选句子通过两个编码器映射到向量空间,利用跨语言相似性检索出子词粒度的目标端原型序列,并在音节粒度的候选句子库中对照出音节粒度的目标端原型序列;Step3、对子词级原型序列进行粒度还原,再依据构建好的实体词典做噪声掩盖,之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配,赋予原型序列参考价值;Step4、将处理好的原型序列作为模板信息,应用在双编码器-单解码器结构,指导翻译任务;所述Step2的具体步骤为:Step2.1、将词粒度的汉语句子x输入编码器,得到高维向量Ex;将子词粒度的越南语句子s输入编码器,得到高维向量Es,x与s之间的相关性分数通过计算得出: 按照分数rxi,si筛选出与第i个源语言句子xi相关性高的前3个子词粒度的目标语言句子作为目标端语言原型序列S={sj,1,sj,2,sj,3};Step2.2、依据子词粒度的目标端语言原型序列S在音节粒度的候选句子库中对照出音节粒度的原型序列S1;所述Step3的具体步骤为:Step3.1、将检索出的子词粒度的目标端语言原型序列S={sj,1,sj,2,sj,3}中,按照‘@@’符号为边界,将拆分过的音节还原;Step3.2、将音节粒度的原型序列S1遍历一遍词典,对照出音节粒度原型序列中实体的位置;Step3.3、对比Step3.1与Step3.2当中实体、数字的位置,将未处理过的子词粒度的目标端语言原型序列S中,实体、数字的位置用符号‘mask’替换,得到处理后的原型序列S′={S′j,1,S′j,2,S′j,3};Step3.4、根据越南语词语表,统计子词级候选句子库中的句子进行词频统计,将出现频率低于10%的词作为稀有词ωj,计算处理后的子词粒度的原型序列S′={S′j,1,S′j,2,S′j,3}中每个句子S′j,k|k=1,2,3的稀有词ωj的相对词频: 为指示函数,当处理后的子词粒度的原型序列S′中的词ωi为稀有词时,函数值为1;相反,若不是稀有词时,函数值为0,Ntotal为原型序列中某个句子s′j,k|k=1,2,3所包含的子词数目;Step3.5、将处理后的子词粒度的原型序列中每个句子s′j,k|k=1,2,3所有稀有词的相对词频聚合,判断该原型序列中每个句子的整体难度分数: Step3.6、结合检索模块中的得到相关性得分rxi,si以及当前模块得到的原型序列难度根据公式4得到原型序列的参考价值 所述Step4的具体步骤为:Step4.1、将源语言句子的词粒度的汉语句子x输入源语言编码器,将Step3得到的处理后的子词粒度的原型序列S′={s′j,1,s′j,2,s′j,3}输入目标语言编码器;Step4.2、解码器根据先前时间步生成的序列y1:t-1以及源语言编码器的输出,生成隐藏状态ht;经过一次线性变换以及softmax运算以后,得到下一个token的预测概率值:Pv=softmaxWvht+bv5其中,Wv为维度变换矩阵,bv为偏置;Step4.3、原型编码器将处理后的子词粒度的原型序列S′的每个句子s′j,k|k=1,2,3转换为一组词嵌入Li为原型序列的句子长度,给原型序列中被‘mask’替换的实体Sillegal的位置加上一个无穷大的负偏置,即:Sillegal=Sillegal+Biasillegal6Biasillegal→-∞7Step4.4、计算隐状态ht与原型序列S′中每个句子s′j,k|k=1,2,3的每一个词的注意力: Wm是一个维度变换矩阵,β为一个可以训练的权重参数,用来权衡参考价值csi的影响;M为原型序列S′中所含的句子数目;Step4.5、利用αk,l对原型序列S′={s′j,1,s′j,2,s′j,3}的每一个词做加权平均: Step4.6、用ct更新隐状态后,结合Step4.2得到的Pv,计算出下一个子词yt的预测概率值: 为指示函数,λt是一个由前馈网络构成的门控单元,用以平衡原型序列的影响。

全文数据:

权利要求:

百度查询: 昆明理工大学 基于降噪原型序列的汉越神经机器翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。