买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京中新赛克科技有限责任公司
摘要:本发明公开了一种结合机器学习和投机采样的大模型推理加速方法及系统,其中方法包括:根据检索出的本地知识构建n‑gram语言模型;n‑gram语言模型推理阶段根据给定文字token,预测下一个token在词表中的概率分布,并采样预测下一个token;基于构建的n‑gram模型和大模型,实现投机采样算法,加速大模型推理。与当前的主流方法相比,本发明生成的内容相比较于现有投机采样算法所使用的近似小模型,更加可靠,其计算量少且减少了内存访问的需求,速度更快。本发明还进一步分别将改进的投机采样算法应用于transformers库和推理框架vLLM,推理速度获得进一步提升。
主权项:1.一种结合机器学习和投机采样的大模型推理加速方法,其特征在于,包括如下步骤:步骤一,根据检索出的本地知识构建n-gram语言模型;步骤二,n-gram语言模型推理时输入文本token,输出下一个token在词表中的概率分布,基于下一个token的概率分布,采样生成下一个token,从而根据用户的问题连续生成n个token;步骤三,将生成的n个token与前缀拼接,一起输入大模型预测出n+1个token;步骤四,将大模型生成的n+1个token与n-gram模型的生成的n个token进行并行验证;步骤五,将选择的结果与当前提示词前缀token拼接在一起,作为新的token序列。
全文数据:
权利要求:
百度查询: 南京中新赛克科技有限责任公司 一种结合机器学习和投机采样的大模型推理加速方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。