一种基于RAG的大模型机器翻译方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：哈尔滨工业大学

摘要：本发明是一种基于RAG的大模型机器翻译方法。本发明涉及大语言模型翻译技术领域，本发明对原始语言序列分词处理，对语言序列嵌入表示转化，基于同语言建立翻译资料库；基于翻译需求，对原始语言进行拆分，进行原文嵌入表示获取；基于原文嵌入表示与翻译资料库，进行相似度计算；根据相似度计算获取和需求接近的翻译示例，结合翻译示例和大模型，生成贴合需求的译文。发明采用的prompt构造方式相比于普通的prompt以及随意使用示例的prompt能够更好的帮助大语言模型生成符合需求的译文，在特定领域翻译和翻译风格化上有着很好的效果。

主权项：1.一种基于RAG的大模型机器翻译方法，其特征是：所述方法包括以下步骤：步骤1：对原始语言序列分词处理，对语言序列嵌入表示转化，基于同语言建立翻译资料库；所述步骤1具体为：利用领域的同义语言对进行训练，生成适用于领域的embedding模型；对原始语言序列分词处理，对语料库中的所有语言序列采用SentencePiece工具的BPE分词策略训练，获得针对语料库的词表以及tokennizer用于分词；使用获得的词表将所有翻译资料库的语言序列分词后转化为token序列的表示；采用m-Bert模型进行embedding层的训练：对m-Bert在翻译资料库的语料上进行训练，在进行m-Bert训练时固定其它层，仅训练embedding层，进一步削减训练所需的计算资源；使用训练的m-Bert模型进行嵌入表示生成，翻译资料库的Token序列经过Bert-embedding后得到嵌入序列表示；在对上述生成的嵌入序列和语言序列进行存储时，使用Weaviate向量数据库，将语言序列和其对应的嵌入序列配对存储；步骤2：基于翻译需求，对原始语言进行拆分，进行原文嵌入表示获取；所述步骤2具体为：对于使用者的一个翻译需求，拆分成三个信息，翻译方向、原文以及翻译风格需求；翻译风格需求决定了翻译资料库的选择，如需要古风的翻译风格、风趣的翻译风格，可采用对应的翻译资料库来检索最终的翻译示例；首先将需要翻译的原文通过之前训练的tokennizer进行分词，得到其token表示的序列；上述Token序列再通过embedding模型得到其嵌入表示，即向量形式；步骤3：基于原文嵌入表示与翻译资料库，进行相似度计算；步骤4：根据相似度计算得到贴合需求的翻译示例，结合大模型，生成贴合需求的译文。

全文数据：

权利要求：

百度查询：哈尔滨工业大学一种基于RAG的大模型机器翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种端子压接装置

下一篇：一种基于三波段光谱的壁画地仗磷酸盐含量检测方法

相关技术

一种端子压接装置

一种基于三波段光谱的壁画地仗磷酸盐含量检测方法

一种焊剂生产环保炉盖

一种物联网远程控制数据传输方法、系统及存储介质

一种基于GCV正则化的BDS-3多频周跳探测与修复方法及系统

一种信号采集模块

髋臼周围截骨术的术中截骨实时定位导航方法及系统

跨院报告书写方法、报告协作系统及计算机设备

一种汽车零部件喷涂设备及其使用方法

一种报废汽车拆解举升和翻转两用机

图像编码/解码方法和装置，以及发送比特流的方法

一种大型储罐双盘式浮顶结构

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于RAG的大模型机器翻译方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务