一种基于混合专家和参数重用的模型构建方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西北工业大学

摘要：本发明公开了一种基于混合专家和参数重用的模型构建方法，包括MoE模块构建、推理时专家合并、立即块重用三个部分。本发明能够实现更好的精度、体积、速度权衡的transformer架构模型。

主权项：1.一种基于混合专家和参数重用的模型构建方法，其特征在于，包括如下步骤：步骤1：MoE模块构建；将原本密集计算的FFN模块改为稀疏的MoE模块；利用FFN的两层线性层构建两层专家网络，第一层专家的输出经过相加后经过激活层；在推理时动态选择需要的专家，动态选择专家如下所示：；其中，m代表所选专家的数量，j代表当前专家，t代表超参数阈值，代表选择当前专家的概率；将路由网络输出的选择每个专家的概率从大到小排序之后，依次累加，当累加值大于等于设定的阈值时，已累加概率的专家即为本次推理所选专家；步骤2：推理时专家合并；在推理时数据通过每一个网络块的路由部分得出所用专家之后，将各个选择到的专家的参数利用结构重参数化的方法合并，得到推理时的参数；具体合并方法如下所示：；式中，代表当前专家的权重，为当前的三维输入，B为batchsize、N为长度、C为维度；通过将多个专家的权重合并，最终得到无分支的线性层作为合并后的网络；再将数据输入合并后的网络，假设该次推理选择了n个专家，那么经过专家的参数合并，计算量就会减少为原来的1；步骤3：网络块重用；将每一个网络块重复两次，在不增加参数量的前提下将网络深度提升两倍；硬件的缓存中每加载一个模块，能够计算两次。

全文数据：

权利要求：

百度查询：西北工业大学一种基于混合专家和参数重用的模型构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：半包覆式卷耳及其制备模具、方法及板簧整体成型方法

下一篇：一种超临界二氧化碳反应釜

相关技术

半包覆式卷耳及其制备模具、方法及板簧整体成型方法

一种超临界二氧化碳反应釜

一种具有自动矫正功能的高精度落杯落盖装置

一种基于改进YOLOv8n的低空无人机目标检测方法及装置

航空物流流程异常预警方法及系统、电子设备及存储介质

一种锑白炉气相冷却结晶装置

一种换电式轮胎吊

一种节能环保绿色建筑墙体构件

一种缓解水稻镉胁迫的方法

个性化标签打印装置

超标量处理器、超标量处理器的调试方法、装置及设备

一种三文鱼钵钵海鲜配方及制备

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于混合专家和参数重用的模型构建方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务