买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院)
摘要:本发明涉及基于查询和元数据异常检测的数据湖仓聚簇方法与系统,属于大数据计算技术领域。包括:数据采集与预处理;EC‑GKDE算法异常判定:对预处理操作后的数据集进行训练,得到所有查询任务的异常分数,进行初次判定;元数据信息异常判定:获取异常查询任务的关联表,获取Hive元数据服务中HDFS实际路径信息,并计算该HDFS实际路径下小文件所占比例,二次判定该异常查询任务的关联表是否为异常表;聚簇优化:提交聚簇任务,将小文件合并为大文件。本发明减少存储资源的开销,大大降低了查询任务需要消耗的时间;本发明可以控制聚簇操作执行的次数,减轻聚簇机制带来的并发更新不支持、增量查询不友好和集群资源浪费的问题。
主权项:1.基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,包括:数据采集与预处理:采集历史查询任务的各项性能指标,筛选其中部分相关性能指标作为初始数据集,并对初始数据集进行预处理操作;EC-GKDE算法异常判定:通过基于经验累积分布函数和高斯核密度估计方法的EC-GKDE算法,对预处理操作后的数据集进行训练,得到所有查询任务的异常分数,对异常查询任务进行初次判定;元数据信息异常判定:获取异常查询任务的关联表,依据异常查询任务的关联表的表信息获取Hive元数据服务中HDFS实际路径信息,并计算该HDFS实际路径下小文件所占比例,二次判定该异常查询任务的关联表是否为异常表;聚簇优化:将异常表的信息作为同步聚簇操作的依据,提交聚簇任务,将小文件合并为大文件。
全文数据:
权利要求:
百度查询: 山东省计算中心(国家超级计算济南中心) 齐鲁工业大学(山东省科学院) 基于查询和元数据异常检测的数据湖仓聚簇方法与系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。