买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工业大学
摘要:本发明是一种基于RAG的大模型机器翻译方法。本发明涉及大语言模型翻译技术领域,本发明对原始语言序列分词处理,对语言序列嵌入表示转化,基于同语言建立翻译资料库;基于翻译需求,对原始语言进行拆分,进行原文嵌入表示获取;基于原文嵌入表示与翻译资料库,进行相似度计算;根据相似度计算获取和需求接近的翻译示例,结合翻译示例和大模型,生成贴合需求的译文。发明采用的prompt构造方式相比于普通的prompt以及随意使用示例的prompt能够更好的帮助大语言模型生成符合需求的译文,在特定领域翻译和翻译风格化上有着很好的效果。
主权项:1.一种基于RAG的大模型机器翻译方法,其特征是:所述方法包括以下步骤:步骤1:对原始语言序列分词处理,对语言序列嵌入表示转化,基于同语言建立翻译资料库;所述步骤1具体为:利用领域的同义语言对进行训练,生成适用于领域的embedding模型;对原始语言序列分词处理,对语料库中的所有语言序列采用SentencePiece工具的BPE分词策略训练,获得针对语料库的词表以及tokennizer用于分词;使用获得的词表将所有翻译资料库的语言序列分词后转化为token序列的表示;采用m-Bert模型进行embedding层的训练:对m-Bert在翻译资料库的语料上进行训练,在进行m-Bert训练时固定其它层,仅训练embedding层,进一步削减训练所需的计算资源;使用训练的m-Bert模型进行嵌入表示生成,翻译资料库的Token序列经过Bert-embedding后得到嵌入序列表示;在对上述生成的嵌入序列和语言序列进行存储时,使用Weaviate向量数据库,将语言序列和其对应的嵌入序列配对存储;步骤2:基于翻译需求,对原始语言进行拆分,进行原文嵌入表示获取;所述步骤2具体为:对于使用者的一个翻译需求,拆分成三个信息,翻译方向、原文以及翻译风格需求;翻译风格需求决定了翻译资料库的选择,如需要古风的翻译风格、风趣的翻译风格,可采用对应的翻译资料库来检索最终的翻译示例;首先将需要翻译的原文通过之前训练的tokennizer进行分词,得到其token表示的序列;上述Token序列再通过embedding模型得到其嵌入表示,即向量形式;步骤3:基于原文嵌入表示与翻译资料库,进行相似度计算;步骤4:根据相似度计算得到贴合需求的翻译示例,结合大模型,生成贴合需求的译文。
全文数据:
权利要求:
百度查询: 哈尔滨工业大学 一种基于RAG的大模型机器翻译方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。