首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于Spark引擎的数据血缘静态解析方法及装置、介质及产品_颖投信息科技(上海)有限公司_202410310850.5 

申请/专利权人:颖投信息科技(上海)有限公司

申请日:2024-03-18

公开(公告)日:2024-06-18

公开(公告)号:CN118210816A

主分类号:G06F16/242

分类号:G06F16/242;G06F16/2455;G06F16/2457

优先权:

专利状态码:在审-公开

法律状态:2024.06.18#公开

摘要:本发明提供一种基于Spark引擎的数据血缘静态解析方法,其将逻辑计划节点替换为仅读写元数据的虚拟节点,并在Spark引擎上注册监听器,以在对业务代码零侵入的情况下实现数据血缘静态解析。此外,还可以使用Spark引擎自带的规则接口加入逻辑节点替换规则,以在Spark引擎版本更新时实现本静态解析方法的相对稳定。

主权项:1.一种基于Spark引擎的数据血缘静态解析方法,所述静态解析方法包括:步骤S1:接收目标任务,所述目标任务是基于表格的数据处理任务;步骤S2:在所述Spark引擎上注册监听器;步骤S3:在所述Spark引擎的解析器中添加逻辑计划节点替换规则,所述逻辑计划节点替换规则用于将每个涉及数据读取、创建、写入或删除至少之一的逻辑计划节点替换为对应的虚拟节点,并被设定为在所述解析器的解析阶段完成后执行,所述虚拟节点在执行读取和创建操作时仅对元数据进行读取和或创建,在执行写入和删除操作时仅对所述目标任务的原有数据源的元数据之外的其他元数据进行写入和或删除,且每个所述虚拟节点与其替换的逻辑计划节点对于数据血缘的影响相同;步骤S4:在所述Spark引擎上启动所述目标任务的执行;步骤S5:基于所述监听器获得的逻辑计划事件,提取血缘相关信息,构造表关系树、属性树,并且可选地构造函数树;步骤S6:遍历所述表关系树、所述属性树,并在已构造所述函数树时可选地遍历所述函数树,建立所述目标任务的数据血缘,所述目标任务的数据血缘用于体现所述目标任务所涉及的表和或字段之间的血缘关系;其中,步骤S2和步骤S3可相互调换顺序,且其中任一项均可提前至步骤S1之前。

全文数据:

权利要求:

百度查询: 颖投信息科技(上海)有限公司 一种基于Spark引擎的数据血缘静态解析方法及装置、介质及产品

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。