首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于强化学习的中医大模型及偏好对齐方法_河南科技大学_202410292348.6 

申请/专利权人:河南科技大学

申请日:2024-03-14

公开(公告)日:2024-06-21

公开(公告)号:CN118230908A

主分类号:G16H20/90

分类号:G16H20/90;G16H50/70;G06F16/332;G06N3/043;G06N3/084;G06N3/09;G06N3/092

优先权:

专利状态码:在审-公开

法律状态:2024.06.21#公开

摘要:本发明涉及一种基于强化学习的中医大模型及偏好对齐方法,中医大模型包含基于医疗知识的中医大模型学习模块、基于偏序对的奖励模块、基于强化学习的偏好对齐模块和基于神经网络的反馈优化模块,中医大模型学习模块整合中医数据构建语料库,并在语料库上进行训练,使模型初步对齐中医领域的任务;其次采用强化学习技术通过监督学习结合偏好排序数据训练奖励模块,评估出中医大模型输出信息与人类偏好的一致性;再次采用基于强化学习的偏好对齐模块训练中医大模型的输出偏好,使中医大模型可以输出与人类偏好更为一致的回答;最后通过模糊神经网络评估文本对齐质量,建立反馈循环优化流程,实现中医大模型的个性化偏好对齐。

主权项:1.一种基于强化学习的中医大模型,其特征在于:包括以下模块,中医大模型学习模块:用于收集中医临床数据,对数据进行预处理,统一格式化形成中医数据集,并使用预处理后的数据对模型进行训练,掌握病症、证候与处方之间的映射关系;奖励模块:用于评估中医大模型在给定输入下的输出结果,根据患者病情、症状描述、证候类型和处方信息,计算出中医大模型生成结果的奖励值;偏好对齐模块:根据奖励模块的奖励值结果,使用强化学习算法对中医大模型学习模块训练的模型参数进行持续优化调整;反馈优化模块:建立医疗偏好对齐质量评估策略,对用户的反馈信息进行特征提取,理解用户反馈问题的主要趋势,利用反馈信息构建偏好对齐优化策略。

全文数据:

权利要求:

百度查询: 河南科技大学 一种基于强化学习的中医大模型及偏好对齐方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。