买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:四川语言桥信息技术有限公司;西湖大学
摘要:本申请涉及一种用于增强组合泛化能力的生成跨语言文本的方法和系统。所述方法包括接收用户输入的待生成跨语言文本的源语言文本;基于所接收的源语言文本,利用训练好的第一学习模型生成目标跨语言文本。第一学习模型基于包含源语言文本‑跨语言文本语句对的训练数据集进行训练,至少部分语句对关联有基于训练数据集生成的上下文;在对训练数据集中的第一语句以及多个第二语句对的相同级别语言单元进行随机扰动基础上,计算第一语句对与各个第二语句对的组合相似度,由此确定第二语句对的集合作为第一语句对关联的上下文。本申请能够使学习模型适应更多新颖的组合输入,从而在为源语言文本生成跨语言文本时具有更强的组合泛化能力。
主权项:1.一种用于增强组合泛化能力的生成跨语言文本的方法,其特征在于,包括,由处理器:接收用户输入的待生成跨语言文本的源语言文本;基于所接收的源语言文本,利用训练好的第一学习模型,生成目标跨语言文本,所述第一学习模型基于包含源语言文本-跨语言文本语句对的训练数据集进行训练,其中,至少部分语句对关联有基于训练数据集生成的上下文;以及,在为训练数据集中的第一语句对生成上下文时:对所述第一语句对的源语言文本中的第一级别的语言单元进行第一随机扰动以生成第一源语言文本集,其中,所述第一级别的语言单元为词或词组,所述第一随机扰动包括同义词词组替换、近义词词组替换、反义词词组替换,对所述第一语句对的源语言文本中的第一级别的语言单元进行第一随机扰动以生成第一源语言文本集具体包括:在不破坏第一语句对的源语言文本原有句法结构和语义合理性的前提下,对所选择的词或词组进行对应的同义词词组替换,或近义词词组替换,或反义词词组替换;在所述训练数据集中确定多个第二语句对,并对各个第二语句对的源语言文本中的第一级别的语言单元进行第一随机扰动,以生成对应的第二源语言文本集;基于所述第一源语言文本集和各个第二源语言文本集,计算所述第一语句对与各个第二语句对之间的组合相似度,并基于所述组合相似度确定至少部分第二语句对的集合作为第一语句对关联的上下文。
全文数据:
权利要求:
百度查询: 四川语言桥信息技术有限公司 西湖大学 用于增强组合泛化能力的生成跨语言文本的方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。