买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:平安科技(深圳)有限公司
摘要:本申请涉及人工智能技术领域,本申请实施例提供了一种基于BM25算法的文档检索方法、装置、电子设备及存储介质。该方法包括:将问题文本输入至预训练好的第一自然语言处理模型,以利用第一自然语言处理模型感知上下文语义信息的能力,对所述问题文本中每个分词的重要性进行预测;再基于BM25算法对第一自然语言处理模型输出的各个分词的重要性预测结果进行处理,得到各个候选文档与问题文本的相似度得分,并根据相似度得分得到召回文档,将所述召回文档作为文档检索结果推送给所述用户。本申请在获取相似度得分的过程中考虑了问题文本的上下文语义信息,克服了典型BM25算法仅根据分词的词频来判断分词的重要性所带来的局限性,提高了文档召回的准确率。
主权项:1.一种基于BM25算法的文档检索方法,其特征在于,所述方法包括:接收用户输入的业务问题,得到问题文本;将所述问题文本输入至预训练好的第一自然语言处理模型,以通过所述第一自然语言处理模型获得所述问题文本中每个分词的重要性预测结果;获取预先设置的多个候选文档和各个所述候选文档的文档参数;针对每个所述候选文档,分别基于BM25算法对所述候选文档的文档参数和所述问题文本中每个分词的重要性预测结果进行处理,得到所述候选文档与所述问题文本的相似度得分,其中,所述文档参数包括分词在所有候选文档中出现的频率、所述候选文档的长度和所有候选文档的平均长度;根据所述相似度得分,对所述候选文档进行召回处理,得到召回文档;将所述召回文档作为文档检索结果推送给所述用户;其中,所述第一自然语言处理模型包括编码器表示-全词遮掩Bert-wwm层和全连接层,所述Bert-wwm层用于基于第一样本问题文本输出词向量语义序列,所述全连接层用于基于所述词向量语义序列输出所述第一样本问题文本中的各个分词的重要性预测结果;所述第一自然语言处理模型的预训练过程包括:构建第一训练样本集合,其中,所述第一训练样本集合包括多个第一训练样本,每个所述第一训练样本包括第一样本问题文本和第一标签集合,所述第一标签集合包括所述第一样本问题文本中各分词的第一标注标签,所述第一标注标签用于表征所述分词在所述第一样本问题文本句子中的重要程度;将每个所述第一训练样本中的第一样本问题文本输入至所述第一自然语言处理模型,得到所述第一训练样本的重要性预测结果集合;根据各个所述第一训练样本的重要性预测结果集合和所述第一标签集合,确定所述第一自然语言处理模型的第一损失值;在所述第一损失值满足预设的第一训练结束条件情况下,结束所述第一自然语言处理模型的预训练过程;在所述第一损失值不满足所述预设的第一训练结束条件的情况下,对所述第一自然语言处理模型的模型参数进行调整,并基于所述第一训练样本集合对调整后的模型继续进行预训练。
全文数据:
权利要求:
百度查询: 平安科技(深圳)有限公司 基于BM25算法的文档检索方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。