首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于知识图谱的大模型可靠医学知识注入方法、装置_智慧眼科技股份有限公司_202410596261.8 

申请/专利权人:智慧眼科技股份有限公司

申请日:2024-05-14

公开(公告)日:2024-06-14

公开(公告)号:CN118194996A

主分类号:G06N5/025

分类号:G06N5/025;G06F16/332;G06F16/335;G06F16/36

优先权:

专利状态码:在审-公开

法律状态:2024.06.14#公开

摘要:本申请公开了一种基于知识图谱的大模型可靠医学知识注入方法、装置,所述方法包括步骤:S1、基于医学知识库和梯度难度数据生成策略引导产生初步的医学知识问答数据;S2、通过多维度数据筛选方法,从可靠性、多样性、必要性三个维度对初步的医学知识问答数据进行筛选过滤,得到模型知识注入的最终数据;S3、对所述最终数据进行自蒸馏数据处理得到训练数据,减少与原始训练数据分布差异,利用所述训练数据对目标大语言模型进行自蒸馏训练实现对目标大语言模型的微调。本申请在提高目标大语言模型专业领域知识注入可靠性的同时,还可缓解目标大语言模型微调后可能的灾难性遗忘,提高目标大语言模型通用领域适应能力。

主权项:1.一种基于知识图谱的大模型可靠医学知识注入方法,其特征在于,包括步骤:S1、基于医学知识库和梯度难度数据生成策略引导产生初步的医学知识问答数据;S2、通过多维度数据筛选方法,从可靠性、多样性、必要性三个维度对初步的医学知识问答数据进行筛选过滤,得到模型知识注入的最终数据;S3、对所述最终数据进行自蒸馏数据处理得到训练数据,减少与原始训练数据分布差异,利用所述训练数据对目标大语言模型进行自蒸馏训练实现对目标大语言模型的微调;所述步骤S1具体包括步骤:S11、给定医学知识库Ki=ei,attri,ci,其中Ki表示知识库中一个医疗实例,ei表示医疗实体,attri表示医疗实体的属性知识名称,ci表示属性知识内容;S12、给出一个医疗实例所有知识属性,使用已有的大语言模型或者API,要求大语言模型或者API只能随机针对医疗实例中1个属性知识,生成一组问答数据,并将所述问答数据难度标记为一阶难度;S13、从一个医疗实例中选择2个或以上的属性知识记为{attrmask,cmask},未被选择的医疗实例记为{ei,attrno_mask,cno_mask},使用已有的大语言模型或者API,设计任务模板,要求已有的大语言模型将{ei,attrno_mask,cno_mask}知识注入题干,针对attrmask进行提问,并将cmask注入到回答的内容中,得到一组问答数据作为难度提升的二阶难度样本;S14、对医学知识库中所有医疗实例执行上述步骤S12和S13,由此得到第一阶段的粗糙知识注入样本数据集Datasetrough,作为初步的医学知识问答数据。

全文数据:

权利要求:

百度查询: 智慧眼科技股份有限公司 一种基于知识图谱的大模型可靠医学知识注入方法、装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。