一种基于分布式引擎实现数据检索的方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：成都优卡数信信息科技有限公司

摘要：本发明公开一种基于分布式引擎实现数据检索的方法及系统，涉及数据检索技术领域，所述方法包括：将检索池内的文档数据映射到若干个检索切片中；将检索切片存放于分布式引擎中的各个服务节点；测试分布式引擎的检索效率，并根据测试结果对分布式引擎调优；使用调优后的分布式引擎对用户发出的检索请求并行处理，返回检索结果；当检索池数据变更时同步更新分布式引擎。通过多台计算机协同工作，即使部分节点发生故障，系统整体仍能继续运行，提高了系统的可靠性，利用多台计算机的并行处理能力，提高数据检索速度和效率。

主权项：1.一种基于分布式引擎实现数据检索的方法，其特征在于，所述方法包括：Step1、将检索池内的文档数据映射到若干个检索切片中，具体包括以下子步骤：提取检索池内文档数据的特征向量；使用分词器将文档切分为一个词元序列，通过预训练好的大语言模型把词元序列转化为一个向量序列，最后将这些词元向量融合为一个特征向量，词元向量融合公式表示为：其中fi表示第i个文档的特征向量，Tik表示第i个文档中的第k个词元向量，k取值1～iw，iw表示第i个文档中词元向量的数量，Tikcount表示Tik在第i个文档中出现的次数，Titotal表示第i个文档中词元的总数量，Tiother表示第i个文档中无关词的数量，Di表示第i个文档的唯一标识向量，τ为可调节参数；创建若干个检索切片，并为每个检索切片设置一个中心向量；单个检索切片的中心向量计算公式为：其中Cj为第j个检索切片的中心向量，m为检索切片的总数量，fip为第i个文档特征向量fi的第p个分量，i取值1～n，n为检索池中文档的总数量，p取值1～w，w为第i个文档特征向量fi中分量的个数；选择与文档的特征向量关联度最高的中心向量所代表的检索切片，与文档建立映射关系；计算文档特征向量与中心向量之间关联度的函数表示为：其中Gfi,Cj返回文档特征向量fi与中心向量Cj的关联度，fip表示文档特征向量fi的第p个分量，Cjp表示中心向量Cj的第p个分量，p取值1～w，w为向量fi中分量的个数，分别为fi、Cj的均值；Step2、将检索切片存放于分布式引擎中的各个服务节点；Step3、测试分布式引擎的检索效率，并根据测试结果对分布式引擎调优；Step4、使用调优后的分布式引擎对用户发出的检索请求并行处理，返回检索结果；Step5、当检索池数据变更时同步更新分布式引擎。

全文数据：

权利要求：

百度查询：成都优卡数信信息科技有限公司一种基于分布式引擎实现数据检索的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：具有导向功能的玻璃钢化炉上料装置及其上料工艺

下一篇：一种集成电路的成品测试方法和存储介质

相关技术

具有导向功能的玻璃钢化炉上料装置及其上料工艺

一种集成电路的成品测试方法和存储介质

朝向信息确定方法以及自动驾驶车辆

一种用于大水库养殖花白鲢鱼的肥水剂的生产工艺及其应用

托卡马克下偏滤器热管温差发电余热利用可行性验证装置

一种遥控双稳坦克模型

一种光学变焦镜头

数据查询方法、设备、存储介质和程序

孔隙均匀低表面波纹度热镀锌合金化H220BD钢板及其制备方法

一种用于注塑模具的顶针配装装置

一种柔性光伏支架

纸管上料装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于分布式引擎实现数据检索的方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务