【发明公布】基于大语言模型投机采样推理的加速器硬件及加速方法_北京大学_202410331857.5

导航：龙图腾网> 最新专利技术> 基于大语言模型投机采样推理的加速器硬件及加速方法_北京大学_202410331857.5

申请/专利权人：北京大学

申请日：2024-03-22

公开（公告）日：2024-04-26

公开（公告）号：CN117933401A

主分类号：G06N5/04

分类号：G06N5/04

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.14#实质审查的生效;2024.04.26#公开

摘要：本发明公布了一种基于大语言模型投机采样推理的加速器硬件及加速方法，基于DRAM‑PIM存内计算架构的投机采样推理算法，设计并使用设计空间探索方法，为投机采样推理算法中的所有草稿模型与目标模型分配独立的加速器实例；根据最优投机采样推理软硬件协同设计，得到基于DRAM‑PIM投机采样大语言模型推理的加速器硬件；并使用文本生成加速方法执行投机采样推理。设计得到的基于投机采样推理的加速器硬件包括一个中央宿主处理器与多个DRAM‑PIM模块。使用本发明可实现高效的文本生成。

主权项：1.一种基于大语言模型投机采样推理的加速器硬件设计方法，其特征在于，基于动态随机存取存储器-存内计算架构DRAM-PIM的投机采样推理算法，设计并使用设计空间探索方法，为投机采样推理算法中的所有草稿模型与目标模型分配独立的加速器实例；根据最优投机采样推理软硬件协同设计，得到基于DRAM-PIM投机采样大语言模型推理的加速器硬件；包括如下步骤：1）获取投机采样推理所使用的草稿模型和目标模型信息、加速器硬件信息和探索参数；2）生成算子形状与运算单元数量的组合；并计算每个算子形状与运算单元数量组合的执行延迟；运算单元为宿主处理器或计算内存模块中的PIM计算单元；算子包括全连接层算子和注意力算子；3）进行硬件加速器设计空间探索：设计并使用设计空间探索方法，通过多次搜索迭代，对加速器架构与投机采样推理数据流进行协同探索，得到基于DRAM-PIM投机采样大语言模型推理的加速器硬件；每次搜索迭代包括以下过程：3.1）首先随机采样加速器硬件架构设计；包括：每个模型使用的加速器的内存种类，存内计算架构PIM模块上的计算内存模块数量；3.2）对每种加速器硬件架构设计，随机采样投机采样推理数据流；3.3）将采样得到的所有加速器硬件架构设计与所有投机采样推理数据流进行组合，得到投机采样推理软硬件协同设计；每个投机采样推理软硬件协同设计包含一个硬件架构设计和一个基于该设计采样得到的投机采样推理数据流；3.4）对所有的软硬件协同设计进行评估，计算得到模型的Transformer层在单次迭代中的延迟，进一步得到当前配置下投机采样推理延迟的总开销，并更新最优投机采样推理软硬件协同设计记录；评估方法包括：A．对每个模型，根据每个算子组内的逻辑时间戳与算子的执行延迟，估算出每个算子组的执行延迟；B．对每个模型，根据算子组的依赖关系与每个算子组的执行延迟，计算每个算子组的终止时间；得到当前模型的Transformer层的延迟；C．对每个模型，计算得到模型在单次迭代中的延迟；D．计算得到每个模型在单次迭代中的延迟后，根据草稿模型执行延迟的最大值、目标模型的执行延迟和投机采样的执行迭代次数平均值，计算得到当前配置下投机采样推理延迟的总开销；3.5）如果当前为最后一轮迭代，结束操作，输出当前记录的最优投机采样推理软硬件协同设计；否则，返回步骤3.1），开始新一轮迭代；根据最优投机采样推理软硬件协同设计，即得到基于DRAM-PIM投机采样大语言模型推理的加速器硬件。

全文数据：

权利要求：

百度查询：北京大学基于大语言模型投机采样推理的加速器硬件及加速方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种炮孔自动填塞机_新疆天河爆破工程有限公司_202410337157.7

下一篇：一种电能表故障数据监测系统及数据存储介质_中电装备山东电子有限公司_202410411878.8

相关技术

一种炮孔自动填塞机_新疆天河爆破工程有限公司_202410337157.7

一种电能表故障数据监测系统及数据存储介质_中电装备山东电子有限公司_202410411878.8

一种热升华水性油墨及其制备方法_广东睿智环保科技股份有限公司_202410410854.0

全氟异丁腈的合成方法_天津市长芦化工新材料有限公司_202410424719.1

一种探测烟雾粒度及浓度的方法_烟台创为新能源科技股份有限公司_202410159903.8

一种可移动车载伸缩无人机起降机场_齐鲁理工学院_202410345681.9

CPR辅助按压器_重庆心搏康医疗科技有限公司_202311753834.5

一种中心静脉压手动测量装置_中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所)_202410152192.1

一种吊具点测方法、装置、系统和存储介质_一汽丰田汽车有限公司_202410173152.5

一种双频段相控阵雷达智能抗干扰方法_成都金武科技有限公司_202410410853.6

POCT血细胞分析仪_深圳市帝迈生物技术有限公司_202410426762.1

一种全自动铜铝焊接装置_怀化亚信科技股份有限公司_202410351666.5

推理相关技术

使用FPGA进行AI推理软件堆栈加速的方法_EFINIX有限公司_202310035183.X

一种图像分类模型的推理方法、装置、设备及介质_山东浪潮科学研究院有限公司_202210099282.X

基于图的模型划分的边端协同推理方法及系统_南京邮电大学_202410162969.2

面向无人艇集群多目标追踪策略的强化学习推理方法_大连海事大学_202410117061.X

一种基于知识蒸馏的多模态思维链推理方法和装置_华南师范大学_202311211524.0

基于因果推理的无偏场景图生成系统及方法_同济大学_202410124532.X

联合推理数据处理方法和装置、电子设备、介质、车辆_北京百度网讯科技有限公司_202410310124.3

一种端边云协同卷积神经网络推理方法及系统_杭州卷积云科技有限公司_202210611122.9

一种建模关系动态性的时间动态知识图谱推理方法_重庆大学_202311775429.3

一种基于机器学习和知识推理的决策融合方法_中国海洋大学_201910540848.6

加速器相关技术

一种医用直线加速器治疗头_玛西普医学科技发展(深圳)有限公司_201910149003.4

人工智能加速器及其运作方法_财团法人工业技术研究院_202211572402.X

硬件加速器及其调度方法_苏州元脑智能科技有限公司_202410219345.X

一种检测装置和粒子加速器_中国原子能科学研究院_202110544328.X

一种加速器辅助安装结构_北京华清加高能电子科技有限公司_202322129361.3

运算加速器、交换器、任务调度方法及处理系统_华为技术有限公司_201880098081.X

一种神经网络加速器及系统_北京海普方漫科技有限公司_202410276738.4

保护由数据处理加速器处理的数据的方法和系统_百度时代网络技术(北京)有限公司_201980038708.7

用于直线加速器运行的分布式控制系统和方法_中国科学院近代物理研究所_202311810515.3

一种医用回旋加速器内部联锁及远程监控系统_四川玖谊源粒子科技有限公司_202410066093.1

采样相关技术

排气采样装置、排气分析系统、排气采样方法和排气采样装置用程序_株式会社堀场制作所_202280065369.3

电流采样电路_西安图为电气技术有限公司_202410103099.1

一种自动定位的泥岩采样设备及其采样方法_重庆大学_202311188134.6

一种稀释采样系统及其采样探头真空度测量装置、方法_华能(浙江)能源开发有限公司玉环分公司_202410242563.5

一种具有采样池密封结构的采样胶囊_安翰科技(武汉)股份有限公司_201810617882.4

一种深水湖泊底栖动物采样装置及采样方法_云南省生态环境科学研究院_202410292637.6

一种空气采样吸收管_广东金泰达安全科技有限公司_202321867644.1

一种土壤采样装置_辽宁水文地质工程地质勘察院有限公司_202322412612.9

一种核酸采样终端_广东佳视通高新科技有限公司_202321941093.9

一种采样管托架_广东省人民医院_202322722747.5

龙图腾网&IPTOP

【发明公布】基于大语言模型投机采样推理的加速器硬件及加速方法_北京大学_202410331857.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务