首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种应用于法律领域的基础大模型的优化方法_天津大学_202410339246.5 

申请/专利权人:天津大学

申请日:2024-03-25

公开(公告)日:2024-06-07

公开(公告)号:CN118153714A

主分类号:G06N20/00

分类号:G06N20/00;G06Q50/18;G06F40/284;G06N5/022;G06F18/25

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.25#实质审查的生效;2024.06.07#公开

摘要:本发明公布一种应用于法律领域的基础大模型的优化方法。采用LangChain+Streamlit+城市安全大模型的方式进行本地化部署,提供智能应答服务。主要包括数据收集、处理数据、问答对知识召回优化、参数微调和模型优化。微调大模型可以提高模型在应对法律和城市安全领域的鲁棒性。通过向模型中添加新的任务和数据,模型可以更好地适应复杂多变的法律环境和城市安全挑战。根据具体应用场景对模型进行精简和优化,以保证模型在法律和城市安全领域的高效运行。

主权项:1.一种应用于法律领域的基础大模型的优化方法,其特征在于,采用LangChain+Streamlit+城市安全大模型的方式进行本地化部署,提供智能应答服务;包括如下步骤:S1数据收集S2处理数据:将收集的数据进行整理并进行预处理,包括进行数据筛选、数据清洗,进行构建知识库和进行知识召回,进一步构建问答对;知识库融合倒排索引与向量索引两种构建技术;采取高效冗余的多级召回机制;通过切分文档并行化处理,运用具备多节点弹性伸缩能力的向量模型,进行分布式并行推理运算,最后,采用KNN算法进行索引预热构建;S3问答对知识召回优化S4定义目标和策略:考虑进行部分微调,以及微调的层级和范围,同时考虑使用新增的数据集进行微调,使用RLHF-人类反馈强化学习来策略来完成微调过程;将微调任务表述为RL问题,该策略是一个接受提示并返回一系列文本或文本的概率分布的语言模LM,奖励函数RM是偏好模型和策略转变约束的结合;具体来说,这个策略模型能够根据已生成的部分序列x0,x1,...,xk-1,预测下一个文本单元xk的概率分布,其中0≤kn;设定词表为∑,则给定长度为n的序列x0,x1,...,xn-1的联合概率可以通过语言模型ρ表示为:ρx0…xn-1=Π0≤knρxk|x0…xk-1其中,输入空间X定义为所有长度不超过m的文章集合,即X=∑≤m,而输出空间Y是所有长度恰好为n的总结集合,即Y=∑n;由文章x生成总结y的概率表示为首先,初始化策略为π=ρ,然后使用PPO算法更新策略π,奖励函数定义为r,则奖励的期望值可以表示为: 学习损失:将提示输入初始LM和当前微调的LM,分别得到输出文本,将来自当前策略的文本传递给RM得到一个标量的奖励,将两个模型的生成文本进行比较计算差异的损失函数,通常设计为输出词分布序列之间的KL散度的缩放,即:r=rθ-βrKL其中这一项被用于惩罚RL策略在每个训练批次中生成大幅偏离初始模型,以避免模型过分偏离初始模型,从而保持模型输出的连贯性和合理性;S5参数微调训练:设置超参数,确定微调过程中的超参数;初始化模型参数,根据预训练模型的权重,初始化微调模型的参数;对于部分微调,只有顶层或少数层的参数会被随机初始化;进行微调训练,使用准备好的数据集和微调策略,对模型进行训练,在训练过程中,根据设定的超参数和优化算法,逐渐调整模型参数以最小化损失函数;S6模型调优在微调阶段结束后,利用独立的测试集对最终调整后的模型进行全面评估,采用稀疏微调方法来优化模型性能,设计一套参数索引集合及其与预训练值之间的增量数组,以实现所需的参数更新密度控制。

全文数据:

权利要求:

百度查询: 天津大学 一种应用于法律领域的基础大模型的优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。