买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京潞晨科技有限公司
摘要:本发明公开了一种基于大模型高速缓存的投机推理加速方法,具体包括以下步骤:S1、模型架构设计:首先设计小语言模型的基本架构;S2、数据准备:收集和预处理用于训练模型的数据;S3、训练过程:利用深度学习框架进行模型的训练;S4、集成大语言模型:将训练好的小语言模型与预先训练好的大语言模型集成,使其能够利用大语言模型的KV缓存进行推测性解码;本发明涉及投机推理技术领域。该基于大模型高速缓存的投机推理加速方法,不仅提高了小型模型的实用性,也为各种语言处理任务提供了更高效、更精准的解决方案,提供了对大模型推理1.5‑2.0倍内的加速,极大缩短运行时间,小模型显存占用不增加,不会带来额外的显存占用。
主权项:1.一种基于大模型高速缓存的投机推理加速方法,其特征在于:具体包括以下步骤:S1、模型架构设计:首先设计小语言模型的基本架构;S2、数据准备:收集和预处理用于训练模型的数据;S3、训练过程:利用深度学习框架进行模型的训练;S4、集成大语言模型:将训练好的小语言模型与预先训练好的大语言模型集成,使其能够利用大语言模型的KV缓存进行推测性解码;S5、输入处理:接收输入数据并进行预处理;S6、大语言模型编码:利用大语言模型对输入数据进行编码,生成高级表示和KV缓存;S7、交叉关注机制:在小语言模型中引入交叉关注层,以便它可以使用大语言模型的KV缓存;S8、输出生成:小语言模型根据交叉关注处理的结果生成文本输出;S9、验证和调整:大语言模型对小语言模型的输出进行验证和必要的调整。
全文数据:
权利要求:
百度查询: 北京潞晨科技有限公司 一种基于大模型高速缓存的投机推理加速方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。