首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于流程画布的数据采集方法、装置、设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:快应数科(北京)科技有限公司

摘要:本发明提供了基于流程画布的数据采集方法、装置、设备及存储介质,涉及计算机软件技术领域,包括创建一张空白画布,在所述空白画布上绘制多个流程插件生成activity流程;选择activity流程中的多个流程插件以配置流程任务,并为流程任务配置任务调度信息;任务调度引擎读取任务调度信息,启动流程任务对应的数据采集流程;数据采集流程按照任务调度信息依次调用流程插件,从流程插件的配置信息中获取执行参数;利用所述执行参数执行流程插件进行数据采集;将采集到的数据写入数据存储引擎,本发明封装了灵活丰富的数据处理插件,使用者通过在页面进行简单配置,即可进行数据采集工作,极大的降低了使用者技术要求。

主权项:1.一种基于流程画布的数据采集方法,其特征在于,包括:创建一张空白画布,在所述空白画布上绘制多个流程插件生成activity流程;选择activity流程中的多个流程插件以配置流程任务,并为流程任务配置任务调度信息,包括:依次为每个流程任务设置任务执行的频次和时间范围,生成定时任务;将所述定时任务存入任务调度引擎中,将定时任务提交到调度引擎oozie上,oozie按预设的频率信息定时调度配置的spark任务;任务调度引擎读取任务调度信息,启动流程任务对应的数据采集流程,包括:任务调度引擎按照预设频率调度定时任务;检查分布式文件系统中定时任务对应的xml文件是否存在:若存在,则执行xml文件,启动对应的数据采集activity流程;数据采集流程按照任务调度信息依次调用流程插件,从流程插件的配置信息中获取执行参数;利用所述执行参数执行流程插件进行数据采集,包括:从所述执行参数中获取流程插件编码;从分布式文件系统中获取与所述流程插件编码对应的数据处理类的地址;调用并执行数据处理类中的startPlugin方法;执行startPlugin方法并创建SparkSession;SparkSession从关系型数据库、文件系统以及列式存储中读取结构化数据,并将结构化数据写入数据源;或从文件系统读取非结构化数据,并将非结构化数据写入分布式文件系统;或者对读取到的结构化数据或非结构化数据进行数据转换处理;将采集到的数据写入数据存储引擎,数据采集流程执行结束并向任务调度引擎发送结束信息。

全文数据:

权利要求:

百度查询: 快应数科(北京)科技有限公司 基于流程画布的数据采集方法、装置、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。