Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜四川启睿克科技有限公司任治州获国家专利权

恭喜四川启睿克科技有限公司任治州获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜四川启睿克科技有限公司申请的专利一种数据快速清洗导入Hive的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114218207B

龙图腾网通过国家知识产权局官网在2025-03-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111581591.2,技术领域涉及:G06F16/215;该发明授权一种数据快速清洗导入Hive的方法是由任治州设计研发完成,并于2021-12-22向国家知识产权局提交的专利申请。

一种数据快速清洗导入Hive的方法在说明书摘要公布了:本发明公开了一种数据快速清洗导入Hive的方法,在数据序列化和反序列化过程中按行读取原始数据,并按照“数据校验规则”判断该条数据是否合法,对于不合法数据需要在该条数据后加上新的分隔符“^|”和错误标记“EE”,这样通过对错误数据打标记“EE”的方式实现了正确数据和错误数据的区分。根据区分出的正确和错误数据进行再次归类,把原始数据先按照日期进行归类,然后再在日期下进行接口ID区分归类,组成最终对外提供的清洗好的数据。本发明通过对原始数据进行快速自动标记清洗,省去了后续数据使用时的检验步骤,提高了数据处理效率。

本发明授权一种数据快速清洗导入Hive的方法在权利要求书中公布了:1.一种数据快速清洗导入Hive的方法,其特征在于,包括以下步骤:步骤1,输入hive命令,进入hivecli交互;步骤2,通过add命令添加ch-hive-ext.jar包,此扩展包实现自定义数据在加载到hive表时的序列化和反序列化过程;所述步骤2中,在序列化反序列化过程中实现如下功能:1根据字段间分隔符“|”切分数据形成字段数组,取出数组中第五个元素,这是数据的接口类型编号字段,每一种接口数据类型的数据字段个数是不同的,如果切分后的数组大小大于规则中定义数据的大小,那么就说明本条数据有问题,不是合法的数据格式,标记为错误数据;2针对合法的数据,取出数组中的每一个字段,首先通过trim去掉字段头尾可能有的空格,然后对字段进行合法性校验,所有校验都合法的情况下在,该条数据后加上分隔符“^|”和该条数据本来的“接口ID”;步骤3,创建T_LOG_FILES表,建立原始数据和Hive的关系,该表的第一个字段LOG_CONTENT代表日志中的一条记录,第二个字段LOG_INTERFACE_ID代表此条记录的接口号,错误数据为EE;步骤4,将原始数据通过load命令加载到步骤3创建的T_LOG_FILES表中;步骤5,创建T_LOG_INTERFACE表,按照日期以及接口号分区,分类保存不同接口表的记录;所述步骤5中,把原始数据表中的数据加载到这张表后数据就会根据接口idA01、A02、A03、EE放在不用的分区中;步骤6,执行HQL,将T_LOG_FILES表中数据根据分区字段导入T_LOG_INTERFACE;在导入T_LOG_INTERFACE时,其包含的接口号与T_LOG_FILES里的LOG_INTERFACE_ID相对应,让接口信息包含错误数据标识;步骤7,将T_LOG_INTERFACE表目录的各个分区目录下的文件分别加载到各个接口表中,整个数据清洗过程结束。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川启睿克科技有限公司,其通讯地址为:610000 四川省成都市中国(四川)自由贸易试验区成都高新区天府四街199号1栋33层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。