首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于GPT大模型的分类检索方法及系统 

申请/专利权人:北京睿航至臻科技有限公司

申请日:2024-01-15

公开(公告)日:2024-06-28

公开(公告)号:CN117891898B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/35;G06F16/335;G06F16/338;G06F16/332;G06F16/9535

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2024.05.03#实质审查的生效;2024.04.16#公开

摘要:本发明提出一种基于GPT大模型的分类检索方法及系统,属于信息管理技术领域,方法包括对原始数据进行预处理;得到预处理后的数据;所述预处理后的数据包括预处理后的训练数据和预处理后的待检索数据;对预处理后的训练数据进行标注;建立数据评价模型,对标注后的训练数据进行评价获得评价结果;根据评价结果训练数据优化;获得优化后的训练数据;通过优化后的训练数据对预构建的GPT模型进行第一微调;获取待检索数据,将待检索的数据输入所述第一微调后的GPT模型,获得检索结果;获取用户反馈,根据用户反馈对第一微调后的GPT模型进行进一步优化;通过对训练数据进行标注、评价和优化,以及对用户反馈的利用,提高了分类检索的准确性和效率。

主权项:1.一种基于GPT大模型的分类检索方法,其特征在于,所述方法包括:对原始数据进行预处理;得到预处理后的数据;所述预处理后的数据包括预处理后的训练数据和预处理后的待检索数据;对预处理后的训练数据进行标注;建立数据评价模型,对标注后的训练数据进行评价获得评价结果;根据评价结果训练数据优化;获得优化后的训练数据;通过优化后的训练数据对预构建的GPT模型进行第一微调;获取待检索数据,将待检索的数据输入所述第一微调后的GPT模型,获得检索结果;获取用户反馈,根据用户反馈对第一微调后的GPT模型进行进一步优化;所述用户反馈包括:第一预设时间段内任一用户对同一搜索的重复次数超过预设次数阈值的搜索内容;以及第二预设时间内多个用户的对同类搜索的负面反馈次数超过第二阈值时对应的搜索内容;所述建立数据评价模型,对标注后的训练数据进行评价获得评价结果;包括:建立数据评价模型,通过所述评价模型对标注后的数据进行评价;所述数据评价模型为: P为评价模型分数;为每种标签的训练数量,m为训练数据的标签总数;为任意两种标签训练数据量的差值;多个不同标签训练数据量的中位值;多个不同标签训练数据量的最小值;M为预设标签总数;Z标签的准确率;α为系数,范围为(0,1);w1、w2和w3为权重;F为对应任意两种不同标签在同一文档或数据点中同时出现的频率; 为任意两种不同标签在同一文档或数据点中同时出现的频率的最大值; 为任意两种不同标签在同一文档或数据点中同时出现的频率的最小值;abs为绝对值;如果P低于预设第一阈值,则重新增加或获取训练数据;所述获取用户反馈包括:设置第一预设时间段;获取第一预设时间段内任一用户对同一搜索的重复次数超过预设次数阈值的搜索内容;将对应的搜索内容作为第一反馈;其中第一预设时间段为: T为第一预设时间段;L为该用户当前检索的信息长度;为该用户历史记录中每次检索获得结果的平均时长;为该用户历史记录中每次检索获得结果的平均信息长度;为预设次数阈值;为当前网络拥堵系数;设置第二预设时间段;获取第二预设时间段内各用户的对同类搜索的负面反馈,所述同类搜索为搜索结果相似度大于等于预设相似度值的搜索集合;统计第二预设时间段内多个同类搜索中每类搜索的负面反馈的次数;如果第二预设时间段内某类搜索负面反馈次数超过第二阈值,则将对应类别的搜索内容作为第二反馈进行GPT模型微调;其中,第二阈值为Y: 第二预设时间段内该类搜索的总次数;预设单个类别负面反馈次数与对应单个类别搜索次数总数的比值;为第二预设时间段内预设单个类别搜索次数的总数。

全文数据:

权利要求:

百度查询: 北京睿航至臻科技有限公司 一种基于GPT大模型的分类检索方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。