买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京科杰科技有限公司
摘要:本发明涉及数据处理技术领域,尤其涉及一种基于Iceberg的数据治理实施系统,包括:数据采集模块,用以对数据湖中的文件的元数据进行采集;数据处理模块,其与所述数据采集模块相连,用以根据Iceberg对所述元数据进行处理以输出治理数据;存储模块,其分别与所述数据采集模块和所述数据处理模块相连,用以分别对所述元数据、所述衍生数据、所述派生数据以及所述治理数据进行存储;控制模块,其分别与所述数据采集模块、所述数据处理模块以及所述存储模块相连,用以根据治理数据与元数据的字节差异量的方差确定数据治理状态,根据所述数据治理状态分别确定元数据采集录入区的存储容量或数据重分布的准确性。本发明实现了对于数据治理的稳定性的提高。
主权项:1.一种基于Iceberg的数据治理实施系统,其特征在于,包括:数据采集模块,用以对数据湖中的文件的元数据进行采集;数据处理模块,其与所述数据采集模块相连,用以根据Iceberg对所述元数据进行处理以输出治理数据,包括用以对所述元数据进行预处理输出的衍生数据进行重分布以输出派生数据的数据重分布单元以及与所述数据重分布单元相连用以根据所述派生数据对所述Iceberg中的数据分布版本进行更新以输出所述治理数据的数据更新单元;存储模块,其分别与所述数据采集模块和所述数据处理模块相连,用以分别对所述元数据、所述衍生数据、所述派生数据以及所述治理数据进行存储;控制模块,其分别与所述数据采集模块、所述数据处理模块以及所述存储模块相连,用以根据治理数据与元数据的字节差异量的方差确定数据治理状态,根据所述数据治理状态分别确定元数据采集录入区的存储容量或数据重分布的准确性,以及,根据所述数据重分布的准确性分别确定Iceberg的并发任务数量或根据文件合并的成功率确定数据分布版本的更新同步阈值,以及,在预设同步条件下根据数据分布版本的平均更新时长重新确定数据分布版本的更新同步阈值;其中,所述预设同步条件为,数据更新单元以确定后的更新同步阈值对数据分布版本进行更新。
全文数据:
权利要求:
百度查询: 北京科杰科技有限公司 一种基于Iceberg的数据治理实施系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。