买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于多策略原型生成的低资源神经机器翻译方法_昆明理工大学_202210293213.2 

申请/专利权人:昆明理工大学

申请日:2022-03-24

公开(公告)日:2024-04-23

公开(公告)号:CN114676708B

主分类号:G06F40/58

分类号:G06F40/58;G06F40/242;G06F40/30;G06F16/2458;G06N3/0455;G06N3/0442;G06N3/0499;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2022.07.15#实质审查的生效;2022.06.28#公开

摘要:本发明涉及基于多策略原型生成的低资源神经机器翻译方法,属于自然语言处理技术领域。本发明包括步骤:首先结合利用关键词匹配和分布式表示匹配检索原型序列,如未能获得匹配,则利用伪原型生成方法产生可用的伪原型序列。其次,为有效地利用原型序列,对传统的编码器‑解码器框架进行了改进。编码端使用额外的编码器接收原型序列输入;解码端在利用门控机制控制信息流动的同时,使用改进的损失函数减少低质量原型序列对模型的影响。本发明提出的方法能够基于少量平行语料有效地提升检索结果的数量和质量,适用于低资源环境下及相似性语言环境下的神经机器翻译。

主权项:1.基于多策略原型生成的低资源神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、语料预处理:预处理不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试;并构建多语言全局替换词典和关键词词典,用于伪原型生成;Step2、原型生成:利用基于多种策略混合的原型生成方法进行原型生成,以保证原型序列的可用性;该步骤的具体思路为:首先结合使用模糊匹配和分布式表示匹配进行原型检索,如未检索到原型,则利用词替换操作对输入句子中的关键词进行替换,得到伪原型序列;Step3、融入原型序列的翻译模型构建:改进传统基于注意力机制的神经机器翻译模型的编解码器结构,以更好的融入原型序列,使用步骤Step1,Step2的语料作为模型输入,产生最终译文;所述Step2的具体步骤为:Step2.1、结合使用模糊匹配和分布式表示匹配进行原型检索;具体实现如下:翻译记忆库是由L对平行句组成的集合{sl,tl:l=1,…,L},其中sl为源句,tl为目标句;对给定的输入句子x,首先使用关键词匹配于翻译记忆库中进行检索;采用模糊匹配作为关键词匹配方法,其定义为: 其中EDx,si是x,si间的编辑距离,|x|为x的句长;与基于关键词的匹配方法不同,分布式表示匹配根据句子向量表征之间的距离进行检索,某种程度上是利用语义信息进行相似性检索的手段,也因此提供了与关键词匹配不同的检索视角;基于余弦相似度的分布式表示匹配定义为: 其中hx和分别为x和si的向量表征,||hx||为向量hx的度量;为实现快速计算,首先使用多语言预训练模型mBERT得到句子x和si的向量表征,随后依据表征,使用faiss工具进行相似性匹配;当模糊匹配能够得到最优匹配源句sbest时,利用分布式表示匹配得到top-k个匹配结果的集合s′={s1,s2,…,sk},如sbest∈s′,则选取sbest对应的目标端句子tbest作为原型序列;当模糊匹配未能检索到匹配源句或时,则通过分布式表示匹配检索出最优匹配源句sbest;Step2.2、若Step2.1未检索到原型,则对输入的句子进行关键词替换,生成伪原型,称之为基于词替换的伪原型生成;具体包含以下两种替换策略;全局替换:当输入句子未能检索到匹配时,基于最大化原则,利用双语词典对输入句子中的词进行尽力替换,替换后的句子被称为伪原型序列;关键词替换:从双语词典中抽取重要名词和实体构建关键词词典;当输入句子未能检索到匹配时,利用该词典对输入句子中的关键词进行替换,生成伪原型序列,替换次数上限小于设定的阈值;期望在共享词表的基础上,该混合了源端和重要目标端词汇的伪原型序列能够为译文的生成提供指导。

全文数据:

权利要求:

百度查询: 昆明理工大学 基于多策略原型生成的低资源神经机器翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。