买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京大学
摘要:本发明公开一种面向Serverless机器学习模型训练的动态可伸缩数据共享系统,通过共享数据集描述API、协调服务装置、数据分片路由装置、数据分片共享装置和数据共享SDK等关键组件,实现对机器学习模型训练任务中数据共享的高效和灵活管理。用户可利用共享数据集描述API创建和管理数据集,协调服务装置负责整个数据集的生命周期管理,数据分片路由装置为训练任务提供数据共享服务,同时通过动态分片树结构实现分片范围和实例数量的动态调整。数据分片共享装置结合领域特定的缓存淘汰策略—最长采样距离(LSD)优化数据缓存,以提高共享效率。数据共享SDK通过并行异步预取机制,在不影响正常训练过程的情况下,提升数据访问速度。
主权项:1.一种面向Serverless机器学习模型训练的动态可伸缩数据共享系统,其特征在于,包括以下内容:(1)设计共享数据集描述API,用于创建、使用、销毁共享数据集,在创建时指定数据集的元信息和数据样本信息,以及在使用时指定数据集的访问方式;(2)通过协调服务装置,管理共享数据集的整个生命周期,包括数据集的创建、共享和销毁,并按需创建数据分片路由装置的实例以支持数据集共享;(3)通过数据分片路由装置,为多个训练函数提供指定数据集的数据共享服务,依据系统的数据访问情况维护动态分片树结构,控制数据分片共享装置的分片范围及实例数量,从而实现动态扩缩容;(4)通过数据分片共享装置,根据设定的分片范围和领域缓存淘汰策略,缓存数据集的一部分,为训练函数提供所述分片范围内的共享数据;(5)提供数据共享SDK,使训练函数通过SDK与数据共享系统建立连接,利用并行异步数据预取机制,从数据共享系统中批量预取所需数据。
全文数据:
权利要求:
百度查询: 南京大学 面向Serverless机器学习模型训练的动态可伸缩数据共享系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。