买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京理工大学
摘要:本发明公开了一种基于查询扩展和延迟交互的稠密检索方法,属于信息检索技术领域。包括:数据预处理,构建用于查询扩展的数据集;使用引入评估排序的transformer结构,结合对比损失对查询语句进行扩展;基于查询扩展语句生成查询的最终表示,对文档进行句子级别的划分,生成多视角表示;基于上下文延迟交互框架,对查询和文档进行细粒度交互,根据相关性分数对文档进行排序。该稠密检索方法引入了端到端的查询扩展方式,为查询和文档提供多视角表示,并采用了延迟交互策略计算二者的相关性分数。所述方法能够准确地捕获查询的语法和语义特征,较大程度上缓解向量不匹配的问题,增强查询与文档间的深度交互,改善信息匹配效率,提升了检索的性能。
主权项:1.一种基于查询扩展和延迟交互的稠密检索方法,其特征在于:该稠密检索模型包括三层:第一层为查询语句扩展评估层,通过对原始查询语句进行编码,基于添加了评估排序机制的transformer结构,得到与其语义相近的扩展语句;第二层为查询文档多视角表示层,为查询和文档生成多视角嵌入表示,采用稠密检索的方式计算二者之间的相关性;第三层为查询文档延迟交互层,根据延迟交互体系结构即基于BERTBidirectionalEncoderRepresentationsfromTransformers的上下文延迟交互ColBERTContextualizedLateInteractionoverBERT结构,在得到查询和文档的表示后,在稠密检索模型上层对二者的信息进行细粒度交互,根据相关度选择候选文档;所述基于查询扩展和延迟交互的稠密检索方法,包括以下步骤:步骤1:数据预处理,构建用于查询扩展的数据集;步骤1.1:保留具有蕴含语义关系的句子对,以及具有语义相似关系的句子对;对于不同语料库,保留语义关系为蕴含的句子对,保留语义相似的语句对;将所有语料库的所有语句进行整合,然后将整个语料库划分为训练集、验证集,以及测试集;步骤1.2:采用字节对编码方法BPE对相似语句进行分词;其中,字节对编码方法BPEBytePairEncoding是一种基于统计的词汇表压缩算法,其基本思想是将文本中最频繁出现的字符序列逐步合并成一个新的字符,并将新的字符加入词汇表,不断迭代该过程,直到达到指定的词汇表大小或没有可合并的字符;步骤1.2.1:初始化词汇表;步骤1.2.2:统计词汇表中所有字符对出现的次数;步骤1.2.3:检索出现频率最高的字符对;步骤1.2.4:更新词汇表;步骤1.2.5:在达到指定的词汇表规模或没有可合并的字符前,重复执行步骤1.2.2至步骤1.2.4;步骤1.2.6:返回新的词汇表;步骤1.3:训练数据预处理;步骤1.3.1:利用训练好的分词模型对相似语句对进行分词,并将其转换为对应的标识符id;步骤1.3.2:在步骤1.3.1中每个id序列的首位添加标识符起止符和终止符,并将其转换为transformer支持的数据格式;步骤2:使用引入评估排序机制的transformer结构对查询语句进行扩展,该transformer结构包括编码器和解码器;步骤2.1:将原查询语句X和扩展查询语句Y分别转换为向量表示Vx和Vy,如下所示: 其中,是X的各个token的嵌入表示,是Y的各个token的嵌入表示,Tx是X的token的数目,Ty是Y的token的数目;步骤2.2:将原查询语句的向量表示Vx通过transformer编码器转换为一个固定维度的查询语句表示H;编码器由自注意力层和全连接层组成;步骤2.3:将查询语句的向量表示H输入transformer解码器,根据查询语句表示H和当前时刻已生成的前i个token的扩展查询语句的向量表示,预测下一个词语;其中,transformer的解码器包括:自注意力层、编码器-解码器注意力层以及全接连层;步骤2.4:根据解码器的个数重复执行步骤2.3,每次可以生成扩展查询语句的k个词;步骤2.5:对生成的候选扩展查询语句进行评估,即评估生成的扩展查询与真实扩展查询之间的差距;步骤2.6:将经过排序的候选扩展查询语句作为对比样本,在训练过程中引入对比损失,参与稠密检索模型的目标优化,如下所示:Lctr=∑i∑j>imax0,fEj-fEi+λij,其中,Lctr是稠密检索模型的对比损失,Ei和Ej是两个不同的候选查询语句,满足MEj,EMEi,E,M是查询语句的评价指标,E是参考扩展查询语句,λij是排名次数的边际调整参数,f是长度归一化的对数概率;步骤2.7:将对比损失与交叉熵损失进行结合,获得查询扩展模型的多任务学习框架,如下所示: Lmul=Lxent+Lctr,其中,Lmul表示多任务学习框架的损失,Lxent表示稠密检索模型的交叉熵损失,Lctr是指稠密检索模型的对比损失,l表示查询扩展语句的长度,e表示查询扩展语句当前时刻生成的token,表示已生成的部分参考序列,即j前面的token,ptrue表示给定查询Q和条件下,生成的下一个token的真实概率;是稠密检索模型的预测概率,gθ表示稠密检索模型,θ是稠密检索模型参数;步骤2.8:重复执行步骤2.3至步骤2.7,直到生成语句结束符;步骤2.9:输出k个查询扩展语句;设原始查询语句为q1,生成扩展查询语句为q2,q3,…,qk;步骤3:生成查询和文档的多视角表示;步骤3.1:生成查询表示;步骤3.2:生成文档表示;步骤4:基于ColBERT延迟交互框架,对查询和文档进行延迟交互;其中,ColBERT是一个基于BERT的上下文延迟交互排名模型,利用深度语言模型的表现力,结合基于表示模型的离线计算能力和基于交互模型的精细匹配功能,有效平衡了搜索精度和速度;步骤4.1:对与查询相关的文档进行过滤;步骤4.2:对候选文档进行重新排序。
全文数据:
权利要求:
百度查询: 北京理工大学 一种基于查询扩展和延迟交互的稠密检索方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。