申请/专利权人:上海爱可生信息技术股份有限公司
申请日:2023-07-07
公开(公告)日:2024-06-25
公开(公告)号:CN116701469B
主分类号:G06F16/2455
分类号:G06F16/2455;G06F16/22
优先权:
专利状态码:有效-授权
法律状态:2024.06.25#授权;2023.09.22#实质审查的生效;2023.09.05#公开
摘要:本发明提供了一种基于缓存优化HNSW算法的向量数据查询方法,包括:将所有待查询向量形成索引图,索引图包括多层;输入第一查询向量,从索引图的最高层开始查询与第一查询向量距离最近的待查询向量,以作为下一层的入口,直到查找出索引图的最底层入口;将第一查询向量和对应的最底层入口存储在缓存区中;输入第二查询向量,在缓存区中查询是否存在与第二查询向量相同的查询向量;如果有,则直接查找该查询向量对应的最底层入口,作为第二查询向量对应的最底层入口;如果没有,则在存储区中,从索引图的最高层再一步步查询对应的最底层入口;在存储区中,进行以最底层入口作为起点,查询与第二查询向量距离最小的k个待查询向量的操作。
主权项:1.一种基于缓存优化HNSW算法的向量数据查询方法,其特征在于,包括:将所有待查询向量形成索引图,所述索引图包括多层,所有待查询向量作为索引图的结点,索引图是将待查询向量作为结点按照HNSW算法形成的索引图;输入第一查询向量,从索引图的最高层开始查询与所述第一查询向量距离最近的待查询向量,以作为下一层的入口,直到查找出所述索引图的最底层入口;将所述第一查询向量和对应的最底层入口存储在缓存区中;输入第二查询向量,在所述缓存区中查询是否存在与所述第二查询向量相同的查询向量;如果所述缓存区中存在与所述第二查询向量相同的查询向量,则直接查找该查询向量对应的最底层入口,作为所述第二查询向量对应的最底层入口;如果所述缓存区中不存在与所述第二查询向量相同的查询向量,则在存储区中,从索引图的最高层开始向下查询与所述第二查询向量距离最近的待查询向量,以作为每层的入口,直到查找出所述索引图的最底层入口,同时,将所述第二查询向量和对应的最底层入口存储在所述缓存区中或者使用所述第二查询向量和对应的最底层入口替换所述缓存区中的某一查询向量和对应的最底层入口;在存储区中,进行以所述最底层入口作为起点,查询与所述第二查询向量距离最小的k个待查询向量的操作,k为大于1的整数。
全文数据:
权利要求:
百度查询: 上海爱可生信息技术股份有限公司 基于缓存优化HNSW算法的向量数据查询方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。