首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于Spark-SQL语句特性的自动资源分配优化方法_北京科杰科技有限公司_202410641944.0 

申请/专利权人:北京科杰科技有限公司

申请日:2024-05-23

公开(公告)日:2024-06-21

公开(公告)号:CN118227340A

主分类号:G06F9/50

分类号:G06F9/50;G06F16/242;G06F16/2453;G06F16/2458

优先权:

专利状态码:在审-公开

法律状态:2024.06.21#公开

摘要:本发明涉及数据处理技术领域,尤其涉及一种基于Spark‑SQL语句特性的自动资源分配优化方法,包括以下步骤:对历史Spark‑SQL任务的资源数据进行采样,对采样后得到的若干资源数据依次进行预处理和特征提取;使用所述资源分配模型对Spark‑SQL语句进行资源分配,收集资源分配模型的运行特征数据以对资源分配模型进行优化;将所述资源分配模型配置到Hadoop集群中,对Spark‑SQL任务进行资源分配优化;基于实际输出与标准输出的资源分配方案数据量的差异量对资源分配优化的准确性进行判定;在二次判定特征提取的准确性不符合要求时确定特征提取的自学习周期;基于资源数据的平均处理时长对特征提取的自学习周期进行二次调节。本发明实现了对于资源分配优化的准确性的提高。

主权项:1.一种基于Spark-SQL语句特性的自动资源分配优化方法,其特征在于,包括以下步骤:对历史Spark-SQL任务的资源数据进行采样,对采样后得到的若干资源数据依次进行预处理和特征提取,对特征和对应的资源分配方案进行训练以生成资源分配模型;使用所述资源分配模型对Spark-SQL语句进行资源分配,收集资源分配模型的运行特征数据以对资源分配模型进行优化;将所述资源分配模型配置到Hadoop集群中,对Spark-SQL任务进行资源分配优化;基于实际输出与标准输出的资源分配方案数据量的差异量对资源分配优化的准确性进行判定;在判定资源分配优化的准确性不符合要求时对资源数据分区种类的数量进行调节,或,在初步判定特征提取的准确性不符合要求时根据资源分配模型的平均更新速度对特征提取的准确性进行二次判定;在二次判定特征提取的准确性不符合要求时确定特征提取的自学习周期,或,基于所述资源分配模型的平均更新速度和资源数据采样的错误次数占比确定资源数据样本字节量的存储容量占比;基于确定的所述自学习周期对资源数据进行提取以获取若干处理周期内资源数据的处理时长;基于资源数据的平均处理时长对特征提取的自学习周期进行二次调节。

全文数据:

权利要求:

百度查询: 北京科杰科技有限公司 基于Spark-SQL语句特性的自动资源分配优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。