首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于内存计算、web可视化配置的多数据源ETL工具 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州览众数据科技有限公司

摘要:本发明公开了基于内存计算、web可视化配置的多数据源ETL工具,其特征在于包括数据源层、作业层及目标数仓层,数据源层用于连接客户的数据关系数据库;作业层包括数据源层与目标数仓层的映射配置以及基于spark的数据传输模块;映射配置体现在目标数仓层中数仓目标表与数据源层中数据来源业务表之间的关系;基于spark的数据传输模块能够使用spark的dataframe写表的自动建表功能,提高数据传输效率;目标数仓为公司研发的使用经典的4层架构标准数仓。本发明全部基于内存实现,性能相比现有工具和方法更高效。本发明通用性好,基本所有数据源通过Java接口都通用。本发明针对公司内部需要针对性研发,适用于拥有标准的大数据产品及后台表结构的大数据服务公司。

主权项:1.基于内存计算、web可视化配置的多数据源ETL工具,其特征在于包括数据源层、作业层及目标数仓层,数据源层用于连接客户的数据关系数据库,可支持常用的关系数据库;作业层包括数据源层与目标数仓层的映射配置以及基于spark的数据传输模块;映射配置主要体现在目标数仓层中数仓目标表与数据源层中数据来源业务表之间的关系;基于spark的数据传输模块能够使用spark的dataframe写表的自动建表功能,提高数据传输效率;目标数仓为公司研发的标准数仓,该标准数仓使用经典的4层架构,分别为ods、edw、dm和rst,其中edw为按照标准Kimball模型创建的维度表和事实表,无论客户的业务系统什么结构,全部统一到标准edw表,edw表结构可提前初始化,同时也支持自定义目标表;初始化的目标表target_table最后会体现在各个作业的目标映射中;通过该工具,能够在web页面上直接拖拽配置出上述目标数仓层中数仓目标表与数据源层中数据来源业务表之间的关系;web页面配置是从左到右依次将相关信息存储到对应表中;反过来从右到左则可以推导出其来源表、来源字段,以及来源表的关联关系,后续的自动生成sql脚本步骤遵循此流程;数据源信息会保存在datasoure和datasource_tree表,datasoure存储各个数据源的连接信息,datasource_tree则存储全部数据源的表及字段,涵盖库、schema、表、字段4级结构,当被引用时,在web页面中的最左边显示为数据源树,可点击展开;且在web页面即可读取源表及其字段,并通过拖拽的可视化手段能够形成源表的关联关系以及与目标表的字段映射;连接生成目标表所需要的源数据库,并在源数据库中选择所需的源表;完成字段映射后,自动化生成ETL抽数的ods脚本以及加工dim和fct的数据脚本;对生成的ods脚本调用spark-ETL模块,实现源表到数仓ods层的数据传输,支持全量、增量;且整个工作的作业全部完成后,后台能够自动计算出所有脚本的依赖关系,并生成调度的作业依赖表job_relation;这些依赖关系被airflow调用后可视化展现;可视化手段的实现如下:将web页面最左侧第1栏中的表拖至第2栏,并选择所需字段,即形成图中的每个图形块,同时将有关联关系的表进行连线,形成由一张主表为核心的星型或是雪花型架构;可视化手段实现的页面配置会保存到job_table作业表、job_table_column作业表字段、job_table_relation作业表关系中。

全文数据:

权利要求:

百度查询: 杭州览众数据科技有限公司 基于内存计算、web可视化配置的多数据源ETL工具

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。