首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于标题增强和意图识别的RAG检索优化方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:金现代信息产业股份有限公司

摘要:本发明属于检索优化领域,提供了一种基于标题增强和意图识别的RAG检索优化方法及系统,包括提取文档中的高频词汇,将相同场景知识库中的高频词汇结合,构成场景知识库索引;对文档中的标题进行识别,判断标题是否符合标题格式,并对标题分级;按照标题级别切分文档,并进行向量化存储;将提问问题向量化后与场景知识库索引求相似度,确定文档所在场景知识库,进行文档分块的检索返回给大模型生成答案。本发明改善了常规切分方式中忽略了标题与文本间联系的问题,使知识库中存储的信息更加丰富,大模型回答的结果也更加多样;减少了检索所需要的时间,检索到的文本块也更加准确,减小了无关知识对检索结果的影响,使大模型的总结更加准确。

主权项:1.基于标题增强和意图识别的RAG检索优化方法,其特征在于,包括:提取文档中的高频词汇,将相同场景知识库中的高频词汇结合,构成场景知识库索引;所述提取文档中的高频词汇,将相同场景知识库中的高频词汇结合,构成场景知识库索引,具体为:根据文档内容的不同将本地知识库中的文档进行场景划分,存储在对应场景的场景知识库中;对场景知识库中的文档进行分词,过滤掉停用词后对词汇的出现频率进行排序,根据排序结果提取设定数量的高频词汇,得到不同场景下的高频词汇列表;对不同场景下的高频词汇列表进行向量化,得到对应场景下的场景知识库的索引;对文档中的标题进行识别,判断标题是否符合标题格式,并对标题分级;按照标题级别切分文档,并进行向量化存储;所述按照标题级别切分文档,并进行向量化存储,具体为:根据换行符对文档进行分割,并过滤掉字符占比低的段落,得到分割后的段落;对分割后的每一个段落进行判断,如果分割后的段落不是标题,则根据段落的长度与段落设定阈值长度进行比较来切分;如果分割后的段落是标题,先根据段落的长度与段落设定阈值长度进行比较来切分,并在切分后的文本块前加上标题的内容描述;对切分后的所有文本块做向量化得到文本块向量,存储在对应的场景知识库中;将提问问题向量化后与场景知识库索引求相似度,确定文档所在场景知识库,进行文档分块的检索返回给大模型生成答案。

全文数据:

权利要求:

百度查询: 金现代信息产业股份有限公司 基于标题增强和意图识别的RAG检索优化方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。