首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于视觉大模型的提示微调方法_浙江工业大学_202410422320.X 

申请/专利权人:浙江工业大学

申请日:2024-04-09

公开(公告)日:2024-06-07

公开(公告)号:CN118155045A

主分类号:G06V10/82

分类号:G06V10/82;G06V10/764;G06N3/0464;G06N3/08

优先权:

专利状态码:在审-公开

法律状态:2024.06.07#公开

摘要:本发明属于图像处理技术领域,具体涉及一种基于视觉大模型的提示微调方法。本发明包括:构建骨干网络,保存主干参数,将数据增强处理后的图像数据集中的图像处理为输入向量集,输入编码器层;添加提示向量为骨干网络的参数,根据需要训练的参数量选择浅层参数微调方式或深层参数微调方式;将骨干网络第N层编码器层输出的分类令牌输入解码器中,得到预测结果;根据预测结果和真实结果计算损失值,根据损失值进行反向传播,更新提示向量,训练预设轮次后得到训练好的骨干网络;使用训练好的骨干网络进行预测。本发明通过冻结模型主干参数,并且在输入空间中添加少量的可训练的参数,缩短了微调训练过程,降低了模型在下游任务中的训练成本。

主权项:1.一种基于视觉大模型的提示微调方法,其特征在于,所述基于视觉大模型的提示微调方法,包括:获取图像数据集,对图像数据集进行预处理,并进行数据增强处理;构建并预训练骨干网络得到预训练好的骨干网络,并保存训练参数,所述骨干网络包括N层编码器层和解码器,用公式表示为:[xi,Ei]=Li[xi-1,Ei-1]i=1,2,...,Ny=HeadxN其中,表xi示第i层编码器层输出的值,x0表示输入第一层编码器层的令牌,Ei表示第i+1层编码器层的输入向量集,EN表示第N层编码器层输出的最终向量集,Li表示第i层编码器层,xi-1表示第i-1层编码器层输出的值,Ei-1表示第i层编码器层的输入向量集,Head表示解码器,xN表示第N层编码器层输出的值,y表示解码器输出的预测结果;将数据增强处理后的图像数据集中的图像处理为输入向量集,输入编码器层;添加提示向量为骨干网络的参数,根据需要训练的提示向量的数量选择浅层参数微调方式或深层参数微调方式,初始化提示向量并将提示向量输入编码器层,所述浅层参数微调方式为只将提示向量输入第一层编码器层L1,用公式表示如下:[x1,Z1,E1]=L1[x0,P,E0][xi,Zi,Ei]=Li[xi-1,Zi-1,Ei-1]i=2,3,...,Ny=HeadxN其中,x1表示第一层编码器层输出的值,Z1表示第一层编码器层计算的提示向量的特征,E1表示第二层编码器层的输入向量集,P表示提示向量集合,E0表示第一层编码器层的输入向量集,Zi∈Rt×d表示第i个编码器层计算的提示向量的特征,t表示提示向量的个数,d表示提示向量的维数,Zi-1表示第i一1个编码器层计算的提示向量的特征;所述深层参数微调方式为提示向量初始化后被输入到每个编码器层中,用公式表示如下:[xi,-,Ei]=Li[xi-1,Pi-1,Ei-1]i=1,2,...,Ny=HeadxN其中,Pi-1表示输入第i个编码器层的提示向量集合;将骨干网络第N层编码器层输出的值输入解码器中,得到预测结果;根据预测结果和真实结果计算损失值,根据损失值进行反向传播,更新提示向量,训练预设轮次后得到训练好的骨干网络;使用训练好的骨干网络进行预测。

全文数据:

权利要求:

百度查询: 浙江工业大学 一种基于视觉大模型的提示微调方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。