首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

Flume元数据信息分析提取方法及相关组件 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京浪潮数据技术有限公司

摘要:本发明公开了一种Flume元数据信息分析提取方法,该方法中对在EventBody中用目标分隔符分隔的字段信息进行识别以及提取,作为元数据字段信息,匹配字段信息对应的元数据字段名称,以确定各元数据字段信息表达的对象,得到元数据字段名称与字段信息的数据对后将其进行统一存储格式的转换,即可生成以标准格式存储的元数据信息,以便于后续统一的数据处理,将格式转换后的元数据信息添加至Event数据中,以便于后续根据该元数据信息进行数据的处理过程,便于数据的分析以及确定。本发明还公开了一种Flume元数据信息分析提取拦截器、设备及可读存储介质,具有相应的技术效果。

主权项:1.一种Flume元数据信息分析提取方法,其特征在于,包括:获取待处理的Event数据;其中,所述Event数据中包括:EventHeader与EventBody;EventBody为Event数据中记录数据本身的部分,EventHeader用于存储数据的关键字、标签;若错误数据记录文件中写入的错误数据的数量达到第一阈值,判断是否开启脏数据校验;若未开启,执行对所述EventBody进行目标分隔符识别的步骤;若开启,判断所述EventBody中所有字段数据的数据类型是否为目标配置类型;若否,将所述Event数据作为脏数据,写入脏数据记录文件中;若是,判断所述脏数据记录文件中写入的脏数据的数量是否达到第二阈值;若达到,所述Source组件的数据采集通道,并输出脏数据提示;若未达到,对所述EventBody进行目标分隔符识别,并根据识别到的所述目标分隔符对所述EventBody进行元数据字段信息提取,得到元数据字段信息;其中,所述目标分隔符根据当前处理的Event数据的类型确定;判断所述EventBody中目标分隔符的数量,是否为元数据字段名称的数量与1的差值;若是,判定所述元数据字段信息的数量与预先配置的所述元数据字段名称的数量匹配;若否,判定所述元数据字段信息的数量与预先配置的所述元数据字段名称的数量不匹配;若不匹配,将所述Event数据作为错误数据,写入错误数据记录文件中;判断所述错误数据记录文件中写入的错误数据的数量是否达到第一阈值;若达到,停止所述Source组件的数据采集通道,并输出错误提示;若未达到,执行所述判断所述元数据字段信息的数量与预先配置的所述元数据字段名称的数量是否匹配的步骤;若匹配,根据当前处理的Event数据中元数据字段的排布规则或通过用户指定方式为所述元数据字段信息匹配对应的元数据字段名称,得到元数据字段名称与字段信息的数据对;按照预设元数据统一存储格式对所述数据对进行格式转换,生成标准格式的元数据信息;将所述标准格式的元数据信息添加至所述Event数据中。

全文数据:

权利要求:

百度查询: 北京浪潮数据技术有限公司 Flume元数据信息分析提取方法及相关组件

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。