一种基于Spark计算框架的大表连接优化方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：重庆邮电大学

摘要：本发明涉及一种基于Spark计算框架的大表连接优化方法，属于大数据计算领域。该方法包括：S1：利用谓词下推结合压缩布隆过滤器进行数据清洗，过滤掉大表中大量无效的数据，避免大量无用数据进入到shuffle阶段；S2：搭建基于Spark的数据倾斜检测模型，通过蓄水池采样算法统计出全局Map阶段Key值分布；S3：采用中间数据簇分割策略，对倾斜数据簇根据平均负载额定容量进行切割，使出现频次多的Key进入到其他处理快的分区中，使Key处于均匀分布状态。本发明能滤掉大量无用数据，改进数据倾斜情况，缩短连接查询时间，解决Spark集群节点内存溢出问题，提高用户满意度。

主权项：1.一种基于Spark计算框架的大表连接优化方法，其特征在于，该方法包括以下步骤：S1：利用谓词下推结合压缩布隆过滤器进行数据清洗，过滤掉大表中大量无效的数据，避免大量无用数据进入到shuffle阶段，具体包括：首先SQL表达式的过滤表达式下推到存储层直接过滤数据；再利用压缩BloomFilter进行哈希映射，找到两个表中共同拥有的属性连接值并存储到新的位数组A和位数组B中，并利用压缩BloomFilter进行网络广播位数组A和位数组B，将其他不参与连接阶段的无效数据进行去除；S2：搭建基于Spark的数据倾斜检测模型，通过蓄水池采样算法统计出全局Map阶段Key值分布，具体包括：采用Master-Slaves模式，通过蓄水池采样算法，各个Slave节点抽取Key值分布和数据，每个样本被抽取的概率都为KN，其中K表示抽取样本数量，N表示样本总数量；根据样本中的各个Key的频率分布，计算出近似于总体的分布情况，判断大表数据Key值是否倾斜；S3：采用中间数据簇分割策略，对倾斜数据簇根据平均负载额定容量进行切割，使出现频次多的Key进入到其他处理快的分区中，使Key处于均匀分布状态，具体包括：在步骤S2检测到数据倾斜后，计算出数据簇的平均负载额定容量，设置倾斜容忍度，数据簇数据切割网络传输时间大于节点业务处理时间就不切割数据；其余的倾斜数据簇根据平均负载额定容量进行切割；步骤S3具体包括以下步骤：S31：在步骤S2中采样的数据集合为SC＝{SCi}，SCi表示采样数据的key-value键值对数量；S32：通过计算每个桶中的标准额定容量Havg，Havg表示为：其中m为数据簇数，h为桶数，桶当前剩余容量表示为{DB1,DB2,…,DBh}；S33：对SCi进行逆序排序，如果SCi≥DB1，那么一个新的段将从大小为Havg的SCi中分离出来装到DB1中，剩余大小为SCi-DB1的剩余部分和剩余簇进入下一个迭代器；S34：当SCiDBi时，将SCi放入DBi中，对于剩余空间再检查当前第二大SCi-1，看它是否能填满DBi，如果SCi+SCi-1≥DBi，那么SCi-1将被拆分，并将剩余键值对向前遍历所有剩余DBi，查看是否能装下剩余键值对；S35：在每次迭代处理后，SCi将会被重新排序，同时设置倾斜容忍度，当HavgSCi≤Havg*1.1时，则不对SCi进行切割。

全文数据：

权利要求：

百度查询：重庆邮电大学一种基于Spark计算框架的大表连接优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种相机支架

下一篇：一种防松螺丝

相关技术

一种相机支架

一种防松螺丝

一种电解槽中心定位装置

一种用于焦炭反应性加热炉的恒温测定组件

一种可自动模块化管理的全方位监测装置

一种多功能料理机

一种可拼装的立体贺卡

一种工程测量设备

一种酒瓶放置座面纸粘贴装置

圆柱形产品等离子表面处理机

一种起吊工装

一种客运索道的托索轮安装结构

连接相关技术

连接器端子、电连接模块和连接器_泰科电子(上海)有限公司_202420424896.5

电连接模块、连接器和连接器组件_泰科电子(上海)有限公司_202420507711.7

浮动连接系统、具有该浮动连接系统的机器人及连接组件_苏州科瓴精密机械科技有限公司_201811083661.X

用于电连接的连接配件及包括其的连接配件组_罗伯特·博世有限公司_202420530495.8

一种快速连接的连接头_苏州贝格纳工业设备有限公司_202411121203.6

一种用于支吊架连接的连接套_武汉永利鹏冶金辅料有限公司_202323454859.3

内窥镜系统及其连接器支架、连接器_湖南省华芯医疗器械有限公司_202323445437.X

连接器壳体和连接器_泰科电子(苏州)有限公司_202420454605.7

电连接器_中山得意电子有限公司_202420287119.0

连接器_埃梯梯科能电子(深圳)有限公司_202323353240.3

框架相关技术

镜面固定框架及定日镜机构_中国科学院电工研究所_202410985296.0

探测参考信号(SRS)传输框架_苹果公司_201980053714.X

一种便于拆卸的框架沙发_惠州市奥鑫家具有限公司_202420716147.X

一种框架式前防撞系统_凌云工业股份有限公司_202420480087.6

框架建筑物承载梁节点加固结构_中建八局天津建设工程有限公司_202323425010.3

一种可折叠的电动床框架_惠州市富格智能家居科技有限公司_202420304454.7

一种注塑框架用封膜机构_苏州鑫叶自动化设备系统有限公司_202420725596.0

耳机框架的开模浇铸制造工艺_深圳市壳王科技有限公司_202410827010.6

检测hook框架的方法、装置及电子设备_北京达佳互联信息技术有限公司_202110539434.9

框架断路器合跳闸回路监视系统_南京浩特电气有限公司_202411014041.6

表相关技术

用于钟表壳体的表圈_劳力士有限公司_202011218898.1

一种综合表属性和用户行为信息的电力数据表推荐方法_国网湖南省电力有限公司_202410894536.6

一种接口授权表的维护方法_紫光同芯微电子有限公司_202410920716.7

一种防振动压力表机芯_铜仁市佳仑仪表制造有限公司_202420635398.5

一种不锈钢压力表_江苏科润仪表有限公司_202323352680.7

一种台式万用表_健佳茂电子科技(惠州)有限公司_202420606007.7

变态反应的抗原及其表位_朋友股份有限公司_201780093516.7

一种电能表走字试验装置_国网青海省电力公司营销服务中心_202420262231.9

一种校表设备专用稳压罐_寿光市科宁压力容器有限公司_202420660681.3

一种电能表失压保护电路_联桥科技有限公司_202411074790.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于Spark计算框架的大表连接优化方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务