买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州有赞科技有限公司
摘要:本发明公开了Hive表自动排序压缩方法、装置、设备及介质,方法包括:获取Hive表数据信息;在当前Hive表没有指定排序字段时,根据字段血缘信息获取Hive表中所有字段的血缘字段及血缘字段中所包含的血缘排序字段,并基于血缘排序字段确定Hive表的排序字段;基于字段特征和筛选策略对排序字段进行筛选,得到候选排序字段;基于相关性计算策略对候选排序字段进行字段相关性计算,得到各候选排序字段的相关值;基于相关值选取若干排序字段,并比较若干排序字段的预压缩结果,以从中选取最优排序字段;基于最优排序字段对Hive表进行排序压缩,以达到最佳压缩存储效果,从而节省存储空间。
主权项:1.一种Hive表自动排序压缩方法,其特征在于,所述方法包括:获取Hive表数据信息;其中,所述Hive表数据信息包括字段特征、字段血缘信息、运行配置信息;基于所述运行配置信息检测得到当前Hive表的指定排序字段检测结果,在所述指定排序字段检测结果为当前Hive表没有指定排序字段时,根据所述字段血缘信息获取Hive表中所有字段的血缘字段及所述血缘字段中所包含的血缘排序字段,并基于所述血缘排序字段确定得到所述Hive表的排序字段;基于所述字段特征和筛选策略对所述Hive表的排序字段进行筛选处理,得到所述Hive表的候选排序字段;基于相关性计算策略对所述候选排序字段进行字段相关性计算处理,得到各候选排序字段的相关值;基于所述相关值对所述候选排序字段进行排序处理,从已排序的候选排序字段中选取若干排序字段,并基于预设对比策略对所述若干排序字段的预压缩结果进行对比分析得到分析结果,基于所述分析结果从所述若干排序字段中选取所述Hive表的最优排序字段;基于所述最优排序字段对所述Hive表进行排序压缩,得到压缩执行结果并将所述压缩执行结果存储于预设存储区域。
全文数据:
权利要求:
百度查询: 杭州有赞科技有限公司 Hive表自动排序压缩方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。