首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】大语言模型的量化方法及推理方法、装置、设备和介质_清华大学_202410437760.2 

申请/专利权人:清华大学

申请日:2024-04-12

公开(公告)日:2024-06-18

公开(公告)号:CN118036755B

主分类号:G06N5/04

分类号:G06N5/04;G06N3/048;G06N3/0499

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2024.05.31#实质审查的生效;2024.05.14#公开

摘要:本公开涉及人工智能技术领域,尤其涉及大语言模型的量化方法及推理方法、装置、设备和介质,该方法包括:针对大语言模型中任一待量化的当前层,获取当前层对应的原始权重矩阵;在与当前层的输入通道对应的维度上,按照每n个数据为一组,将原始权重矩阵划分为多个权重组;根据每个权重组中的n×1个权重值,确定每个权重组各自的权重量化参数;根据指定的量化位宽以及每个权重组各自的权重量化参数,对每个权重组分别进行量化,得到量化后的目标权重矩阵,目标权重矩阵用于提供给计算单元以运行大语言模型。由此,能够有效降低量化误差,同时使大语言模型能够调用同一计算单元进行并行运算,有利于提高大语言模型的推理运算效率和运算性能。

主权项:1.一种大语言模型的量化方法,其特征在于,包括:针对大语言模型中任一待量化的当前层,获取所述当前层对应的原始权重矩阵;在与所述当前层的输入通道对应的维度上,按照每n个数据为一组,将所述原始权重矩阵划分为多个权重组,每个权重组包含n×1个权重值,n为正整数;根据每个权重组中的n×1个权重值,确定每个权重组各自的权重量化参数;根据指定的量化位宽以及每个权重组各自的权重量化参数,对每个权重组分别进行量化,得到量化后的目标权重矩阵,所述目标权重矩阵用于提供给计算单元,以在所述计算单元上运行所述大语言模型;所述计算单元是通用处理器中执行计算的单元,量化后的目标权重矩阵中的至少同一权重组内各个权重值的数据精度是相同的,在所述大语言模型的运行过程中,使用相同计算单元进行并行运算;其中,所述量化方法还包括:获取所述当前层对应的原始激活矩阵;基于所述原始激活矩阵与所述原始权重矩阵,确定所述当前层的每个输入通道各自对应的重要度,每个输入通道对应的重要度用于表征所述原始激活矩阵与所述原始权重矩阵在每个输入通道上数据的重要程度;按照所述当前层的各个输入通道的重要度,对所述当前层的各个输入通道进行排序,得到所述当前层对应的输入通道排序结果;根据所述当前层对应的输入通道排序结果,在输入通道对应的维度上对所述当前层对应的原始权重矩阵进行排序,得到通道排序后的中间权重矩阵;其中,所述将所述原始权重矩阵划分为多个权重组,包括:将所述中间权重矩阵划分为多个权重组;其中,所述基于所述原始激活矩阵与所述原始权重矩阵,确定所述当前层的每个输入通道各自对应的重要度,包括:确定所述原始激活矩阵在每个输入通道对应的各个激活值的绝对值中的最大值为每个输入通道对应的最大绝对激活值,以及,确定所述原始权重矩阵在每个输入通道对应的各个权重值的绝对值的最大值为每个输入通道对应的最大绝对权重值;将每个输入通道对应的最大绝对激活值与最大绝对权重值之间的乘积,作为每个输入通道对应的重要度。

全文数据:

权利要求:

百度查询: 清华大学 大语言模型的量化方法及推理方法、装置、设备和介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。