首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于异构资源的Spark任务调度方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:湖南大学

摘要:本发明公开了一种基于异构资源的Spark任务调度方法,包括以下步骤:服务端基于Linux命令获取系统所需资源信息并提交到资源管理器以创建集群管理器并完成初始化,服务端接收客户端提交的任务作业,并将该任务作业提交到创建的集群管理器,以将任务作业转换为多个弹性分布式数据集RDD,对得到的所有RDD进行解析,以得到表征多个RDD之间依赖关系的RDD图,服务端根据RDD图中所有RDD之间的依赖关系生成调度阶段的DAG图,服务端将DAG图中的所有RDD按照其对应的依赖关系划分为第一任务阶段、第二任务阶段以及第三任务阶段。本发明能够从各方面解决性能优化问题并解决现有任务调度系统由于资源管理器仅限于收集CPU核数导致系统资源浪费的技术问题。

主权项:1.一种基于异构资源的Spark任务调度方法,其特征在于,包括以下步骤:(1)服务端基于Linux命令获取系统所需资源信息并提交到资源管理器以创建集群管理器并完成初始化;(2)服务端接收客户端提交的任务作业,并将该任务作业提交到步骤(1)创建的集群管理器,以将任务作业转换为多个弹性分布式数据集RDD,对得到的所有RDD进行解析,以得到表征多个RDD之间依赖关系的RDD图;RDD是由一系列数据分区组成的,各个RDD之间具有依赖关系主要为宽依赖或窄依赖,且可以基于上一个RDD重新计算RDD以实现宽窄依赖的转换;RDD图中一侧RDD中的数据分区与另一侧RDD中的数据分区之间存在一对一的映射关系,则该侧的RDD对应的依赖关系为窄依赖;一侧RDD中的数据分区与另一侧RDD中的数据分区之间存在一对多的映射关系,则该侧的RDD对应的依赖关系为宽依赖;(3)服务端根据步骤(2)中得到的RDD图中所有RDD之间的依赖关系生成调度阶段的有向无环图DAG;(4)服务端将DAG图中的所有RDD按照其对应的依赖关系划分为第一任务阶段、第二任务阶段以及第三任务阶段;如果DAG图中某个RDD对应的依赖关系为窄依赖,则该RDD属于第一任务调度阶段;如果DAG图中某个RDD对应的依赖关系为宽依赖,则该RDD属于第二任务阶段;如果DAG图中某个RDD对应的依赖关系是由宽依赖变为窄依赖,或者由窄依赖变为宽依赖,则该RDD属于第三任务阶段;(5)服务端设置计数器i=1;(6)服务端判断i是否大于步骤(4)中DAG图中RDD总数,如果是则流程结束,否则进入步骤(7);(7)服务端判断该DAG图中的第i个RDD是属于第一任务调度阶段,还是属于第二任务调度阶段或第三任务调度阶段,属于第一任务调度阶段则转入步骤(9);如果属于第二任务调度阶段或者第三任务调度阶段,则转入步骤(8);(8)服务端对DAG图中的第i个RDD的数据分区中的数据进行重新聚合和划分处理,以得到该第i个RDD中经过重新聚合和划分后的数据分区,并进入步骤(9);步骤(8)包括以下子步骤:(8-1)针对DAG图中第i个RDD中数据分区中的每个数据而言,服务端对该数据中的每个字段进行分割处理,以得到分割处理后的数据,并将该数据存储在JAVA虚拟机JVM内存中;(8-2)服务端从JVM中获取JVM中存储的数据,并通过Pipeline对该数据进行计算处理,以得到RDD中对应数据分区的数据,并将该数据依次输送到RDD数据分区中;(8-3)服务端将传输到数据分区的数据先后进行变量向量化、广播变量以及反序列化处理,以得到该第i个RDD中经过重新聚合和划分后的数据分区;(9)服务端为第i个RDD中经过重新聚合和划分后的数据分区平均分配行动算子,以得到多个与该第i个RDD对应的、可并发执行的独立任务节点;(10)服务端执行步骤(9)中得到的所有与该第i个RDD对应的独立任务节点,以得到任务结果,并根据该任务运行结果对集群管理器进行状态更新,以得到更新后的集群管理器;(11)服务端对步骤(10)中更新后的集群管理器进行资源信息异常检测,以判断其是否存在异常报警,如果是过程结束,否则进入步骤(12);(12)服务端设置计数器i=i+1,并返回步骤(5)。

全文数据:

权利要求:

百度查询: 湖南大学 一种基于异构资源的Spark任务调度方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。