恭喜杭州观远数据有限公司石凯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜杭州观远数据有限公司申请的专利结合输入数据量的Spark离线任务资源调度优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119201474B 。
龙图腾网通过国家知识产权局官网在2025-05-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411666798.3,技术领域涉及:G06F9/50;该发明授权结合输入数据量的Spark离线任务资源调度优化方法是由石凯;吴宝琪设计研发完成,并于2024-11-21向国家知识产权局提交的专利申请。
本结合输入数据量的Spark离线任务资源调度优化方法在说明书摘要公布了:本申请涉及一种结合输入数据量的Spark离线任务资源调度优化方法,通过采集并解析Spark离线任务,得到所述Spark离线任务的数据表的行数,并计算所述数据表的行数;基于预设的资源规则列表,对上述统计的总行数进行匹配,得到对应的所述计算资源规则;根据所述计算资源规则,将所述Spark离线任务调度发送至对应的执行节点进行执行。能够结合Spark离线任务数据表的行数的属性,进行计算资源的优化调度,使得在实际计算的过程中能够根据Spark任务输入数据表的数据量,动态按照预设规则进行资源参数配置,以此优化计算资源的分配,提高计算效率,促使Spark离线任务高效运行,有效满足客户需求。
本发明授权结合输入数据量的Spark离线任务资源调度优化方法在权利要求书中公布了:1.一种结合输入数据量的Spark离线任务资源调度优化方法,其特征在于,包括如下步骤:S1、预设构建由不同行数与对应计算资源规则组成的资源规则列表,包括:构建用于提取行数以及识别计算资源规则的大模型提示词,并配置在预设的LLM大语言模型中;从后台数据库中收集若干所述Spark离线任务的历史执行日志;遍历所述历史执行日志,由所述LLM大语言模型基于所述大模型提示词,从所述历史执行日志中识别并提取出不同所述Spark离线任务的所述输入数据量的行数与执行所述Spark离线任务的计算资源规则;统计不同所述Spark离线任务的行数与对应的计算资源规则,并由所述LLM大语言模型将其自动填写至预设的规则表中,得到所述资源规则列表;将所述资源规则列表配置在资源调度器中;由LLM大语言模型,从后台数据库中的历史执行日志中来识别不同Spark离线任务的执行日志,从执行日志中识别并提取出不同Spark离线任务的行数以及执行该任务的计算资源规则,包括如下步骤:1).数据准备:收集并准备包含所需信息的日志文件2).分词与嵌入:使用分词器将日志文本分割成小的文本块tokens;将这些tokens映射到特定的整数编码,并转换为高维向量的数值表示embeddings;3).模型预测:利用LLM的多层神经网络和注意力机制对嵌入向量进行处理;根据提示词生成与日志内容相关的预测结果;4).数据提取:从模型的输出中解析并提取出与提示词相关的信息;S2、采集并解析所述Spark离线任务,得到所述Spark离线任务的输入数据量,并计算所述输入数据量的行数;S3、基于所述资源规则列表,对所述输入数据量的行数进行匹配,得到对应的所述计算资源规则;S4、根据所述计算资源规则,将所述Spark离线任务调度发送至对应的执行节点进行执行。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州观远数据有限公司,其通讯地址为:311100 浙江省杭州市余杭区五常街道文一西路998号18幢708室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。