首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于检索生成联合式训练的专利查询方法及系统_北京知呱呱科技有限公司;知呱呱(天津)大数据技术有限公司_202410417485.8 

申请/专利权人:北京知呱呱科技有限公司;知呱呱(天津)大数据技术有限公司

申请日:2024-04-09

公开(公告)日:2024-06-18

公开(公告)号:CN118013020B

主分类号:G06F16/332

分类号:G06F16/332;G06F16/33;G06F40/284;G06Q50/18

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2024.05.28#实质审查的生效;2024.05.10#公开

摘要:本申请公开了一种基于检索生成联合式训练的专利查询方法及系统,方法包括首先利用问题生成模型分析用户的初始查询,并生成一系列细化且关联度高的查询问题;随后,文档检索模型根据这些精心构造的查询问题对专利数据库进行检索,返回按相关性排列的专利文档列表;在此基础上,通过对检索结果的综合分析,特别是通过识别出的潜在硬负样本,自动分析正负样本的区别技术特征,进而能够动态调整和优化问题生成模型,以生成具有更高区分能力的查询问题,从而进一步提高检索的准确率。

主权项:1.一种基于检索生成联合式训练的专利查询方法,其特征在于,所述方法包括:获取用户输入的初始查询数据,将所述初始查询数据输入至问题生成模型进行处理得到第一问题文本,基于所述第一问题文本通过文档检索模型进行检索处理得到待选文档集合;将所述待选文档集合输入至问题生成模型进行处理得到第二问题文本集合,并在所述第二问题文本集合中确定出目标问题;在所述待选文档集合中将目标问题所对应的文档作为正例样本,其他文档作为硬负样本对文档检索模型进行训练,利用训练完成的文档检索模型获取初始查询数据所对应的专利查询结果;在将所述待选文档集合输入至问题生成模型进行处理得到第二问题文本集合之前,所述方法还包括:获取问题生成模型的训练数据;其中,所述训练数据包括人工标注的文档问题对,每对数据包括一个专利文档的说明书及一个或多个与该文档内容相关的查询问题;通过获取的训练数据对问题生成模型进行训练,使用交叉熵损失来衡量模型生成问题与标签问题之间的差异,其中,损失函数具体为:, L rel 表示相关性损失,N表示训练集中的总样本数,i表示第i个样本,Ti表示第i个样本中问题的词汇总数,t表示第i个问题中的第t个词,yi,t表示第i个问题中第t个词的实际分布,表示模型预测的第i个问题中第t个词的概率分布,表示对模型预测的概率分布取对数;在所述待选文档集合中将目标问题所对应的文档作为正例样本,其他文档作为硬负样本对文档检索模型进行训练,还包括:对数据集中每个样本对,首先利用文档检索模型对全部专利文档进行向量建模,然后进行一轮标准检索,以识别出与每个查询问题相关但实际上并不满足查询意图的硬负样本文档集合;其中,硬负样本识别的公式包括:, 表示对于给定的查询问题q,识别出的硬负样本集合; 是待选负样本; 表示查询问题q与文档之间的相似度; 是预设的阈值,用于区分硬负样本; 表示与查询问题相关的正样本。

全文数据:

权利要求:

百度查询: 北京知呱呱科技有限公司;知呱呱(天津)大数据技术有限公司 一种基于检索生成联合式训练的专利查询方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。