首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种数据湖的数据表存储和查询效率优化系统及方法_港交所科技(深圳)有限公司_202410205045.6 

申请/专利权人:港交所科技(深圳)有限公司

申请日:2024-02-26

公开(公告)日:2024-06-18

公开(公告)号:CN117785928B

主分类号:G06F16/2453

分类号:G06F16/2453;G06F16/242

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2024.04.16#实质审查的生效;2024.04.09#著录事项变更;2024.03.29#公开

摘要:本发明提供一种数据湖的数据表存储和查询效率优化系统及方法,该系统包括:数据存储模块,基于ApacheIceberg创建和管理物理表和虚拟表;预查询生成器,用于基于物理表的元数据生成预查询语句;预查询解析器,用于将预查询语句转换为对应的SQL查询语句;查询引擎,用于执行转换后的SQL查询语句。本发明通过引入ApacheIceberg的数据格式和数据处理的理念和技术,设计了灵活数据存储和多层次数据湖处理架构以及可以基于人工智能深度学习算法进行查询优化方案,从而实现数据湖高效的数据处理和查询,并为数据湖高效查询优化提供一种可跟踪和自我优化的思路和方法。

主权项:1.一种数据湖的数据表存储和查询效率优化系统,其特征在于,该系统包括:数据存储模块,基于ApacheIceberg,用于创建和管理物理表和虚拟表;预查询生成器,用于基于虚拟表的元数据生成预查询计划和语句;预查询解析器,用于将预查询语句转换为对应的SQL查询语句;查询引擎,用于执行转换后的SQL查询语句;其中,基于Iceberg存储引擎和存储格式,设计物理表PT和虚拟表,物理表和虚拟表是实际存储与逻辑视图的关系,虚拟表通过查询和处理物理表中的数据,提供了一种更加方便和高效的数据访问方式;预查询生成器生成的预查询语句支持基于Iceberg的隐藏分区技术的动态分区,复杂并表逻辑,以及基于Iceberg的表演化技术的细颗粒度的单元级查询;虚拟表根据业务需求,包含多层架构的虚拟表的树型预查询网络,包括语义层和表示层,高层虚拟表由低层虚拟表的聚合,语义层是低层虚拟表,而表示层是高层虚拟表;语义层用于处理数据的业务逻辑和数据模型;表示层面向最终用户,提供了为特定报告、仪表板或其他数据可视化而定制的视图;语义层依据业务数据逻辑复杂程度和数据量大小分拆成多个子层;该系统还包括一个基于事件触发或基于时间触发的自动预查询机制,用于在检测到上游物理表有数据更新或数据表格式发生变化时,后台依据预聚合执行计划和路径运行对应的虚拟表的SQL查询语句,并将查询结果存储在对应的虚拟表中的预查询结果缓存中;该系统还包括一个预查询跟踪器,用于跟踪和显示物理表和虚拟表的数据血缘关系和预聚合执行计划和路径;该系统还包括一个人工智能深度学习模块,用于根据预查询跟踪器记录的预查询历史记录和查询引擎提供的查询计划和效率分析,对物理表或虚拟表的预查询进行分析,并提供优化建议;人工智能深度学习算法模块,还包括最短路径算法、主成分分析、因子分析、决策树、随机森林、逻辑回归算法,用于分析预查询的不同路径所产生的计算力、存储、执行时间、产生预查询结果数据格式和大小这些因素,以给出优化建议。

全文数据:

权利要求:

百度查询: 港交所科技(深圳)有限公司 一种数据湖的数据表存储和查询效率优化系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。