首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

共享词汇的选择方法、装置及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:株式会社理光

摘要:本发明提供了一种共享词汇的选择方法、装置及存储介质。本发明实施例提供的共享词汇的选择方法,可以选择出神经机器翻译模型的编码器和解码器端共用的共享词汇对,从而减少了模型参数,使得后续神经机器翻译模型的训练时间得以减少,还可以减少训练神经机器翻译模型所需要的数据量,另外,本发明可以提高训练得到的神经机器翻译模型的泛化能力,提高翻译性能。

主权项:1.一种共享词汇的选择方法,其特征在于,包括:从源词汇表和目标词汇表中选择出多个候选词汇对,所述源词汇表为神经机器翻译模型的编码器端的源词汇组成的词汇表,所述目标词汇表为所述神经机器翻译模型的解码器端的目标词汇组成的词汇表;每个所述候选词汇对包括所述源词汇表中的一个候选源词汇和所述目标词汇表中的一个候选目标词汇;为每个所述候选词汇对分别初始化一个共享倾向性参数,利用源句子和目标句子对所述神经机器翻译模型进行预训练,更新包括所述共享倾向性参数在内的模型参数,得到第一神经机器翻译模型及其模型参数,其中,在所述预训练的过程中,对于所述目标句子中存在的候选目标词汇,根据所属候选词汇对的共享倾向性参数,对该候选目标词汇的解码器词向量和该候选目标词汇对应的候选源词汇的编码器词向量进行加权求和后,输入至所述解码器;根据预训练得到的每个所述候选词汇对的共享倾向性参数,从所述多个候选词汇对中选择出共享词汇对;其中,对于所述目标句子中存在的候选目标词汇,根据所属候选词汇对的共享倾向性参数,对该候选目标词汇的解码器词向量和该候选目标词汇对应的候选源词汇的编码器词向量进行加权求和后,输入至所述解码器的步骤,包括:根据预设激活函数,将该所属候选词汇对的共享倾向性参数,映射为取值范围介于0和1之间的第一权重;根据所述第一权重,对该候选目标词汇对应的候选源词汇的编码器词向量进行加权,得到第一中间向量;以及,根据第二权重,对该候选目标词汇的解码器词向量进行加权,得到第二中间向量,其中,所述第二权重与所述第一权重负相关;计算所述第一中间向量和第二中间向量的向量和,得到该候选目标词汇的词向量并输入至所述解码器;根据预训练得到的每个所述候选词汇对的共享倾向性参数,从所述多个候选词汇对中选择出共享词汇对的步骤,包括:选择出所述共享倾向性参数大于预设阈值的候选词汇对,作为所述共享词汇对。

全文数据:

权利要求:

百度查询: 株式会社理光 共享词汇的选择方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。