首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种适用于RAG场景下PDF和Excel共存的检索方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:苏州瑞云信息技术有限公司

摘要:本发明公开了一种适用于RAG场景下PDF和Excel共存的检索方法,包括:S1、获取上传的文件,分为PDF文件和Excel文件;S2、处理Excel文件时,提取Excel表格的首行作为列名,其余行内容作为行数据;列名与扩展生成的同义词组成表索引项;列名结合行数据组成表属性知识;合并表格索引项与表属性知识,以表知识块格式存储;S3、处理PDF文件时,对于表格内容,以表知识块格式进行存储;对于非表格内容,以文本知识块的格式存储;S4、将用户问题所使用的查询语句与表知识块进行匹配,匹配度高则认为用户问题和表知识高相关,在表知识块中检索知识片段;反之则认为低相关,在文本知识块中检索。本发明能够实现对混合文档的高效处理,结合智能检索策略,提高检索的效率。

主权项:1.一种适用于RAG场景下PDF和Excel共存的检索方法,其特征在于,包括以下步骤:S1、获取上传的文件并进行格式区分,分为PDF文件和Excel文件;S2、处理Excel文件时,提取Excel表格的首行作为列名,其余行内容作为行数据;使用大模型进行同义词扩展,生成的同义词与列名组成表索引项;列名结合行数据,组成表属性知识;合并表格索引项与表属性知识,以表知识块格式存储至数据库中;S3、处理PDF文件时,对于PDF文件中的表格内容,与Excel文件的处理方式相同,以表知识块格式进行存储,与Excel文件共同组成表知识块;对于PDF文件中的非表格内容,合并为文本,以文本知识块的格式存储至数据库中;S4、将用户问题所使用的查询语句与表知识块进行匹配,匹配度高则认为用户问题和表知识高相关,反之,则认为低相关;高相关时,在表知识块中检索知识片段,低相关时,则在文本知识块中检索知识片段;S5、将检索出的知识片段提供给大模型,基于用户问题生成答案。

全文数据:

权利要求:

百度查询: 苏州瑞云信息技术有限公司 一种适用于RAG场景下PDF和Excel共存的检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。