买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京航空航天大学
摘要:本发明公开了一种支持自定义算子的多硬件目标深度模型优化部署架构,前端导入模块将深度学习模型文件转换为Relay计算图表示;算子转换模块将Relay计算图表示中的RelayOP转换为硬件OP,输出带有硬件OP的Relay计算图表示;模型优化模块对带有硬件OP的Relay计算图表示中的计算图进行图优化操作,输出携带优化后的计算图和优化硬件OP的Relay表示;数据流优化模块对优化后的计算图表示部分进行硬件感知优化,形成计算图执行流;算子优选模块对优化后的硬件OP进行多模态表示和自动优选,输出算子代码;运行时模块加载相应多硬件编译库,将计算图执行流和算子代码,生成部署文件。
主权项:1.支持自定义算子的多硬件目标深度模型优化部署架构,其特征在于,依次包括:前端导入模块、算子转换模块、模型优化模块、数据流优化模块、算子优选模块和运行时模块;所述前端导入模块用于将深度学习模型文件转换为Relay计算图表示;所述算子转换模块用于将Relay计算图中的RelayOP转换为硬件OP,输出带有硬件OP的Relay计算图表示;所述模型优化模块用于对带有硬件OP的Relay计算图表示中的计算图进行图优化,通过动态与静态图优化方法减少计算图执行过程中的数据访存和无效重复数据计算,输出优化后的计算图和优化硬件OP;所述数据流优化模块用于对优化后的计算图表示部分进行优化,形成计算图执行流;所述算子优选模块用于对优化后硬件OP进行多模态表示和自动优选,输出算子代码;所述运行时模块用于加载执行模块并将计算图执行流和算子代码对应的硬件算子,生成部署文件;所述模型优化模块包括模型优选单元、图麻醉Pass单元、图解剖Pass单元、图移植Pass单元和图缝合Pass单元;所述模型优选单元用于接收带有硬件OP的Relay计算图表示;所述图麻醉Pass单元用于对带有硬件OP的Relay计算图进行后序遍历,将可以常量折叠的子图替换成一个常数节点;所述图解剖Pass单元用于进行内联优化,删除无用的节点;所述图移植Pass单元用于对图解剖后的计算图进行迭代;所述图缝合Pass单元用于利用Hash表确定公共子表达式,将公共子表达式的拓扑结构合并,输出优化后的计算图和优化硬件OP;所述数据流优化模块包括数据流优化单元、异构并行单元和内存复用单元;所述数据流优化单元用于接收优化后的计算图;所述异构并行单元和所述内存复用单元用于对优化后计算图的数据流实现卷积核和激活值的高效编码,根据在不同硬件约束的条件下提高数据存取和模型推理的效率;所述算子优选模块包括算子优选单元、多模态优选单元、算子替代单元、算子编译单元、自动优选单元和代码生成单元;所述算子优选单元用于接收优化后硬件OP;所述多模态优选单元用于对优化后硬件OP进行算子优选,若高性能算子库中集成有对应算子,则调用算子替代,否则调用算子编译;所述算子替代单元用于将优化后硬件OP转换为算子;所述算子编译单元用于对优化后硬件OP进行算子编译;所述自动优选单元用于对编译后的算子进行自动优化,实现循环自动切块、融合、顺序调整;所述代码生成单元用于对优化后的算子进行代码生成,输出算子代码。
全文数据:
权利要求:
百度查询: 北京航空航天大学 支持自定义算子的多硬件目标深度模型优化部署架构
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。