买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京滴普科技有限公司
摘要:本发明提供一种减少iceberg的upsert功能生成equality‑deletes的方法,包括:当iceberg的upsert功能开启时,构建bloomfilter;基于所述bloomfilter,检测数据源中的每条insert数据是否为预设集合中的一员;若是,将对应所述insert数据的equality‑delete插入目的表。本发明的减少iceberg的upsert功能生成equality‑deletes的方法,可以大幅减少产生的equality‑deletes从而节约内存和加快查询速度,还可以解决数据占用磁盘空间过多的问题。
主权项:1.一种减少iceberg的upsert功能生成equality-deletes的方法,其特征在于,包括:当iceberg的upsert功能开启时,构建bloomfilter;基于所述bloomfilter,检测数据源中的每条insert数据是否为预设集合中的一员;若是,将对应所述insert数据的equality-delete插入目的表;还包括:获取所述bloomfilter的第一工作记录;基于所述第一工作记录,对所述bloomfilter进行老化预测;当预测到所述bloomfilter即将老化时,对所述bloomfilter进行老化检测;当检测到所述bloomfilter老化时,重新构建新的bloomfilter;基于所述第一工作记录,对所述bloomfilter进行老化预测,包括:对所述第一工作记录进行特征提取,获得多个第一工作记录特征;基于所述多个第一工作记录特征,对所述bloomfilter进行老化预测;其中,基于所述多个第一工作记录特征,对所述bloomfilter进行老化预测,包括:将所述多个第一工作记录特征输入至预设的老化预测模型,获得老化预测结果;和或,基于所述多个第一工作记录特征,构建第一工作记录特征因子;获取多个bloomfilter老化记录,所述bloomfilter老化记录包括:多组一一对应的其他bloomfilter所处的第一iceberg环境和老化前的第二工作记录;获取所述iceberg的第二iceberg环境;依次遍历所述第一iceberg环境;每次遍历时,获取遍历到的所述第一iceberg环境与所述第二iceberg环境之间的环境匹配权重;若所述环境匹配权重和大于等于预设的环境匹配权重和阈值,对遍历到的所述第一iceberg环境对应的所述第二工作记录进行特征提取,获得多个第二工作记录特征;基于所述多个第二工作记录特征,构建第二工作记录特征因子;计算所述第一工作记录特征因子与所述第二工作记录特征因子之间的第一匹配度;赋予所述第一匹配度所述环境匹配权重,获得目标值;遍历所述第一iceberg环境结束后,累加计算每一所述目标值,获得目标值和;若所述目标值和大于等于预设的目标值和阈值,预测所述bloomfilter即将老化。
全文数据:
权利要求:
百度查询: 北京滴普科技有限公司 减少iceberg的upsert功能生成equality-deletes的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。