一种基于Spark的大规模高维数据近似近邻查询系统和方法

导航：龙图腾网> 最新专利技术> 一种基于Spark的大规模高维数据近似近邻查询系统和方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：上海交通大学

摘要：本发明提供的一种基于Spark的大规模高维数据近似近邻查询系统和方法，主要在内存中执行近似近邻查询。首先根据向量的相似性进行聚类分区，每一个聚类分区对应Spark弹性分布式数据集的一个分区。对每一个分区的数据进行比例采样，并且打上分区的标签。使用该采样数据在主节点建立全局索引，在相应的分区上建立分区索引。查询时，通过该全局索引找到相应的需要查询的若干个该分区，再对各个分区的结果汇总排序，得到最终结果。本发明的技术方案基于Spark系统提供了一种高度可扩展的分布式近似近邻查询方案，同时实现了低延迟和高吞吐量的特性。

主权项：1.一种基于Spark的大规模高维数据近似近邻查询系统，其特征在于，所述系统包括：向量获取模块，索引构建模块和查询模块；所述向量获取模块，用于获取所述系统待处理的待处理向量，即待处理的数据集，包括从待处理的非结构化数据转换而来的所述待处理向量；一个所述待处理向量在所述系统中可视作一个点；所述索引构建模块包括：聚类分区模块，全局索引构建模块和分区索引构建模块；所述聚类分区模块，用于计算所述数据集的m个分区质心，把一个所述数据集分割成所述m个不同分区，使得每个所述分区中所述待处理向量都是同构的，即每个所述分区里的所述点相互靠近；m≥2，m∈N；所述全局索引构建模块，用于在所述系统的主节点构造全局索引；所述全局索引构建模块包括：数据采样单元，数据打标单元和建立索引单元；所述数据采样单元，用于根据所述数据集和所述主节点的资源情况，从各个所述分区均匀采样n个所述待处理向量，即所述点，成为采样数据，通过所述采样数据表示所述分区的所述待处理向量的分布；所述数据打标单元，用于给所述采样数据打上所在的所述分区的分区标签；所述建立索引单元，用于使用所述采样数据在所述主节点构建全局索引，并将所述全局索引保存在内存中；所述全局索引的索引结构采用HNSW；所述分区索引建构模块，用于为每个所述分区创建分区索引，并将所述分区索引保存在所述内存中；所述分区索引的索引结构采用所述HNSW；所述查询模块，包括：查询发起模块，全局查询模块，分区查询模块和排序模块；所述查询发起模块，用于发起查询Q；所述查询Q指定了查询向量，待查询分区的数量s，以及结果向量的数量k；所述查询向量由用户进行设置；1≤s≤m，s∈N；k≥1，k∈N；所述全局索引查询模块，用于在所述全局索引中查找距离所述查询向量代表的所述点最近的p个所述采样数据，得到初步结果向量，并根据所述分区标签统计各所述分区包含的所述初步结果向量的数量，从多到少，依次排序，选取处于前列的所述s个包含所述初步结果向量的数量非零的所述分区，成为所述待查询分区；p≥s，p∈N；当所述全局索引查询模块选取到的所述分区的个数不足所述s个时，可按实际的所述待查询分区的数量给所述s赋值，并对所述待查询分区进行查询；也可增加所述初步结果向量的数量，即增加p的值，直到选取出所述s个所述待查询分区；所述分区查询模块，用于查询所述s个所述待查询分区中的所述点，得到各个所述待查询分区中所述k个距离所述查询向量最近的所述点，即所述分区结果向量；所述排序模块，用于在所述分区查询模块查询过所述s个所述待查询分区后，对得到的s×k个所述分区结果向量进行排序，选取距离所述查询向量表示的所述点最近的k个所述点，得到所述结果向量。

全文数据：

权利要求：

百度查询：上海交通大学一种基于Spark的大规模高维数据近似近邻查询系统和方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种重型机械龙门自动焊接装置

下一篇：一种紫外活化过一硫酸盐联用过程去除水中硫酸羟基氯喹的方法

相关技术

一种重型机械龙门自动焊接装置

一种紫外活化过一硫酸盐联用过程去除水中硫酸羟基氯喹的方法

一种盾构壁后注浆浆液及其制备方法

一种惯性传感器探头装置及多自由度检测方法

一种葡萄糖传感器及其制备方法

一种基于Wollaston棱镜的同步移相干涉装置及方法

一种高直流叠加特性低损耗复合磁粉心的制备方法

包含月桂酸甘油三酯的非乳制奶精组合物及其制备方法

一种生物质燃料防结焦气化燃烧炉

柔性石墨烯霍尔传感器及其制备方法

一种烟叶分拣定级用的翻转分料装置及方法

一种变电站无人机巡视路径规划方法及系统

近似相关技术

一种基于多模近似融合的处理器芯片架构方案_江苏理工学院_202410834768.2

一种基于Spark的大规模高维数据近似近邻查询系统和方法_上海交通大学_202111672312.3

一种片内全加法器近似替代的处理器芯片架构方案_江苏理工学院_202410869242.8

一种基于输入激活的大语言模型低秩近似剪枝方法和装置_国家计算机网络与信息安全管理中心_202410753364.0

基于双目视差近似匹配的自动对焦方法及系统_舰影芯呈科技(厦门)有限公司_202410773650.3

用于确定坐标系之间的近似变换的系统和方法_莱斯特有限公司_201980031557.2

基于自注意力和格轨迹分片线性近似的非线性滤波方法_哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)_202410758052.9

基于近似全局扰动的联邦学习本地锐度优化方法和系统_上海人工智能创新中心_202410669693.7

B样条曲线近似拟合方法、装置、设备及可读存储介质_中科航迈数控软件(深圳)有限公司_202411075428.2

一种基于匹配幂函数的近似SaS滤波的解调方法_淮阴师范学院_202410441273.3

近邻相关技术

一种基于贝叶斯混合和相似互近邻的多密度谱聚类方法_大连海事大学_202410754552.5

一种基于指纹聚类和改进加权K近邻的WiFi指纹室内定位方法_东南大学_202410633728.1

基于最近邻区间平均距离的异步航迹抗差关联方法及装置_中国人民解放军陆军工程大学_202410633965.8

一种基于自然近邻类的机械监测标签数据质量保障方法_燕山大学_202111548527.4

基于四分位与改进孤立最近邻的风电功率异常数据检测方法_石家庄铁道大学_202210520033.3

一种基于近邻排序关系的跨模态检索方法_华侨大学_202111564321.0

海量点云数据场景下最近邻点云的搜索方法和装置_航天宏图信息技术股份有限公司_202410359214.1

融合近邻标题图的新闻话题发现方法_昆明理工大学_202210211576.7

一种基于主成分分析PCA的时空近邻特征STN故障检测方法_南通大学_202410575776.X

一种基于K近邻的机器翻译方法、装置及介质_浙江香侬慧语科技有限责任公司_202111209546.4

查询相关技术

数据查询方法、装置、设备及存储介质_中国建设银行股份有限公司_202111491266.7

自然语言查询方法及装置_浙江口碑网络技术有限公司_202410746085.1

一种方便查询断点的硅芯管_山东高速通信技术有限公司_202323323102.0

域名系统查询的方法及装置_中国联合网络通信集团有限公司_202410900742.3

一种自助查询机防卡纸结构_凯爱思(武汉)智能科技有限公司_202420223762.7

基于大语言模型改写查询文本的方法_浙江飞猪网络技术有限公司_202411097598.0

指标查询方法、装置、设备及存储介质_深圳市钐烽科技有限公司_202410664979.6

基于协同增强的词项级查询扩展方法_大连理工大学_202410924102.6

数据隐匿查询方法、装置、电子设备及存储介质_恒安嘉新(北京)科技股份公司_202410759458.9

具有用于访问验证的基于查询的地址转换的系统架构_ARM有限公司_201910706926.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于Spark的大规模高维数据近似近邻查询系统和方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务