恭喜浪潮软件科技有限公司刘晓获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜浪潮软件科技有限公司申请的专利一种基于NIFI进行数据清洗转换的埋点记录方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119003310B 。
龙图腾网通过国家知识产权局官网在2025-03-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411463802.6,技术领域涉及:G06F11/34;该发明授权一种基于NIFI进行数据清洗转换的埋点记录方法是由刘晓;李照川;王冠军;李会;周秀强;辛卫民;李宗硕设计研发完成,并于2024-10-21向国家知识产权局提交的专利申请。
本一种基于NIFI进行数据清洗转换的埋点记录方法在说明书摘要公布了:本发明提供一种基于NIFI进行数据清洗转换的埋点记录方法,属于互联网应用中的大数据领域,本发明通过对原有的数据清洗转换处理流程进行埋点装置配置实现对每个数据清洗转换处理器的执行日志以及问题数据记录。通过定义埋点处理器来接收清洗转换处理器的结果数据进行定向的分析与记录,实现对整个数据清洗转换任务中不同清洗转换处理器执行结果的分析与监控。可以记录相关的问题数据及每次清洗转换的数据记录日志信息,大大的减少问题排查的时间及人力成本。
本发明授权一种基于NIFI进行数据清洗转换的埋点记录方法在权利要求书中公布了:1.一种基于NIFI进行数据清洗转换的埋点记录方法,其特征在于,通过对原有的数据清洗转换处理流程进行埋点装置配置实现对每个数据清洗转换处理器的执行日志以及问题数据记录;通过定义埋点处理器来接收清洗转换处理器的结果数据进行定向的分析与记录,实现对整个数据清洗转换任务中不同清洗转换处理器执行结果的分析与监控;具体步骤如下步骤(1):首先对需要进行数据清洗或数据转换的清洗转换任务进行流程定义即任务流程设计,明确数据需要做的清洗转换操作并定义相关执行逻辑和先后顺序;步骤(2):依据步骤(1)中的流程设计信息在NIFI画布或调用NIFIRestApi进行NIFI任务配置,创建任务组ProcessGroup,并声明当前的任务组唯一标识Group_Id,在组内依据流程信息创建清洗转换处理器Processer信息以及处理器中文件流FlowFile清洗转换逻辑代码执行成功或清洗转换逻辑代码执行失败后的处理关系Relationship信息,成功的处理关系需默认接入下一步要进行数据清洗转换处理器;步骤(3):步骤(2)中清洗转换处理器配置过程中声明当前处理器的标识即Processer_Id,并配置当前处理器需要进行的处理操作;步骤(4):步骤(1)-(3)配置完成后,对任务组内的相关配置内容进行存储,储存内容为处理器标识信息Processer_Id,清洗转换信息以及处理器配置流程顺序信息;步骤(5):开发埋点处理器,定义并声明一种新的处理器,此处理器用于接收清洗转换处理器的数据流信息并做出分析以及记录操作,通过判断被接入的上层清洗转换处理器的接入关系Relationship为成功或失败判断当前接入节点为成功接入或是失败接入,通过判断数据流FlowFile中每条数据的问题数据标识判断当前数据是否为问题数据,并对当前埋点处理器接入的数据流FlowFile的数据总和以及问题数据总和进行计算并存储;步骤(6):接入埋点处理器,步骤(2)中每个清洗转换处理器成功或失败均需要接入一个埋点处理器,并通过连接Connection连接至清洗转换处理器并传入相关失败或成功的数据流,步骤(7):定义埋点处理器,依据步骤(2)-(6)中定义的关系接入成功埋点处理器以及失败埋点处理器;步骤(8):埋点存储器在执行操作时,分为两个环节,环节1:将当前清洗转换处理器执行的日志批次信息进行保存,即当前清洗转换处理器的标志信息Processer_Id,任务组信息Group_Id,当前执行的批次信息Batch_Id,接入的数据量总量,接入的问题数据的数据量,执行时间进行保存;依据本次数据清洗转换接入的总数据量所划分的数据流FlowFile的个数,每一个清洗转换处理器的日志批次信息可能会产生若干条记录;环节2:将当前的清洗转换处理器清洗或转换失败的数据即问题数据进行保存,包括当前数据的来源信息,数据相关清洗转换信息,日志批次信息以及数据自身信息;步骤(9):任务配置完成后,启动NIFI任务开始执行,NIFI依据任务配置信息进行数据清洗转换操作,其中的配置的埋点处理器会依据配置信息将日志信息,问题数据信息分别进行记录;步骤(10)可通过查看日志或问题数据信息进行数据排查,查看清洗转换操作中产生异常数据以及分析异常数据产生的原因;步骤(3)中的处理操作包括对数据记录中某个字段的空值进行过滤,或者对时间字符串进行相应的日期格式转换,并对数据流中每条数据记录创建一个新的数据标识,此标识用以声明当前数据记录在数据清洗或者数据转换的过程中是否被定义为问题数据;步骤(7)中,需配置信息,包括当前埋点处理器接入的清洗转换处理器的信息,当前任务组的信息,上层接入的清洗转换处理器相关配置信息,失败或成功关系FlowFile信息,异常数据存储数据源信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮软件科技有限公司,其通讯地址为:250000 山东省济南市高新区浪潮路1036号浪潮科技园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。