买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于大语言模型投机采样推理的加速器硬件及加速方法_北京大学_202410331857.5 

申请/专利权人:北京大学

申请日:2024-03-22

公开(公告)日:2024-04-26

公开(公告)号:CN117933401A

主分类号:G06N5/04

分类号:G06N5/04

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.14#实质审查的生效;2024.04.26#公开

摘要:本发明公布了一种基于大语言模型投机采样推理的加速器硬件及加速方法,基于DRAM‑PIM存内计算架构的投机采样推理算法,设计并使用设计空间探索方法,为投机采样推理算法中的所有草稿模型与目标模型分配独立的加速器实例;根据最优投机采样推理软硬件协同设计,得到基于DRAM‑PIM投机采样大语言模型推理的加速器硬件;并使用文本生成加速方法执行投机采样推理。设计得到的基于投机采样推理的加速器硬件包括一个中央宿主处理器与多个DRAM‑PIM模块。使用本发明可实现高效的文本生成。

主权项:1.一种基于大语言模型投机采样推理的加速器硬件设计方法,其特征在于,基于动态随机存取存储器-存内计算架构DRAM-PIM的投机采样推理算法,设计并使用设计空间探索方法,为投机采样推理算法中的所有草稿模型与目标模型分配独立的加速器实例;根据最优投机采样推理软硬件协同设计,得到基于DRAM-PIM投机采样大语言模型推理的加速器硬件;包括如下步骤:1)获取投机采样推理所使用的草稿模型和目标模型信息、加速器硬件信息和探索参数;2)生成算子形状与运算单元数量的组合;并计算每个算子形状与运算单元数量组合的执行延迟;运算单元为宿主处理器或计算内存模块中的PIM计算单元;算子包括全连接层算子和注意力算子;3)进行硬件加速器设计空间探索:设计并使用设计空间探索方法,通过多次搜索迭代,对加速器架构与投机采样推理数据流进行协同探索,得到基于DRAM-PIM投机采样大语言模型推理的加速器硬件;每次搜索迭代包括以下过程:3.1)首先随机采样加速器硬件架构设计;包括:每个模型使用的加速器的内存种类,存内计算架构PIM模块上的计算内存模块数量;3.2)对每种加速器硬件架构设计,随机采样投机采样推理数据流;3.3)将采样得到的所有加速器硬件架构设计与所有投机采样推理数据流进行组合,得到投机采样推理软硬件协同设计;每个投机采样推理软硬件协同设计包含一个硬件架构设计和一个基于该设计采样得到的投机采样推理数据流;3.4)对所有的软硬件协同设计进行评估,计算得到模型的Transformer层在单次迭代中的延迟,进一步得到当前配置下投机采样推理延迟的总开销,并更新最优投机采样推理软硬件协同设计记录;评估方法包括:A.对每个模型,根据每个算子组内的逻辑时间戳与算子的执行延迟,估算出每个算子组的执行延迟;B.对每个模型,根据算子组的依赖关系与每个算子组的执行延迟,计算每个算子组的终止时间;得到当前模型的Transformer层的延迟;C.对每个模型,计算得到模型在单次迭代中的延迟;D.计算得到每个模型在单次迭代中的延迟后,根据草稿模型执行延迟的最大值、目标模型的执行延迟和投机采样的执行迭代次数平均值,计算得到当前配置下投机采样推理延迟的总开销;3.5)如果当前为最后一轮迭代,结束操作,输出当前记录的最优投机采样推理软硬件协同设计;否则,返回步骤3.1),开始新一轮迭代;根据最优投机采样推理软硬件协同设计,即得到基于DRAM-PIM投机采样大语言模型推理的加速器硬件。

全文数据:

权利要求:

百度查询: 北京大学 基于大语言模型投机采样推理的加速器硬件及加速方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。