基于结构与指令微调大语言模型的图像字幕生成模型

导航：龙图腾网> 最新专利技术> 基于结构与指令微调大语言模型的图像字幕生成模型

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：湖州师范学院

摘要：本发明公开了基于结构与指令微调大语言模型的图像字幕生成模型，通过ClipCap++模型实现，所述ClipCap++模型包括CLIP视觉编码器、键值对模块、残差连接模块、映射网络和语言模型。ClipCap++模型在进行图像字幕生成期间，可先利用对比语言‑图像预训练编码器CLIP以极大地节省训练资源和时间成本，在冻结CLIP进行预训练后引入来自few‑shot数据集的信息并存储在键值对模型中，再将预训练的视觉特征与优化的特征信息进行残差连接以防止模型对少样本数据的过拟合。对于给定的测试图像而言，ClipCap++模型在推理过程中，可先利用CLIP视觉编码器得到图像嵌入作为硬提示，再使用键值对模块构建实体感知的软提示，最后经过GPT生成图像描述。

主权项：1.基于结构与指令微调大语言模型的图像字幕生成方法，其特征在于：通过ClipCap++模型实现，所述ClipCap++模型包括CLIP视觉编码器、键值对模块、残差连接模块、映射网络和语言模型且训练过程包括如下步骤：a采用来自冻结的CLIP模型的所述视觉编码器对测试图像进行视觉信息编码，从而得到预训练的视觉信息；b先引入相应领域的few-shot数据集并将视觉信息和标签信息存储在所述键值对模型中，再利用视觉信息和标签信息对测试图像进行特征优化，从而得到优化的特征信息；c采用所述残差连接模块将预训练的视觉信息和优化的特征信息进行残差连接，从而得到联合嵌入；d使所述联合嵌入经映射网络生成提示向量；e使所述语言模型根据提示向量输出文本描述信息。

全文数据：

权利要求：

百度查询：湖州师范学院基于结构与指令微调大语言模型的图像字幕生成模型

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种脉冲调制装置

下一篇：小动物在线无创肺功能监测仪

相关技术

一种脉冲调制装置

小动物在线无创肺功能监测仪

一种盾构隧道内攀壁巡检机器人及其巡检方法

动态鳍片对齐系统

钛硅分子筛及其制备方法和苯酚羟基化方法

一种可以感知温度的系统和方法

一种可自适应角度调节装置

一种稳流器

一种电力铁塔塔脚焊接机器人及其焊接工艺

一种污水检测过滤装置

一种新型船舶外表面修复喷涂机

绕线骨架、磁悬轴承、电机

语言相关技术

一种基于蜕变测试的大语言模型自然语言推理偏见检测方法_江苏大学_202410879280.1

语言模型训练方法、装置、存储介质及设备_唯品会(广州)软件有限公司_202411304591.1

语言风格迁移方法、装置、设备、介质及产品_中国移动通信集团浙江有限公司_202411005656.2

基于大语言模型的推荐处理方法及装置_支付宝(杭州)信息技术有限公司_202411111876.3

生成式大语言模型训练方法以及基于模型的搜索方法_北京百度网讯科技有限公司_202310233928.3

基于面向数据流的自然语言分析方法和系统_北京国瑞数智技术有限公司_202111461882.8

大语言模型文本分类中边界模糊与固有偏差的处理方法_华中科技大学_202410900829.0

一种基于图对齐大语言模型的文生图方法_清华大学_202410973330.2

基于大语言模型的轴承故障诊断系统、方法及程序产品_杭州市北京航空航天大学国际创新研究院(北京航空航天大学国际创新学院)_202411287669.3

语言模型训练和语音识别方法、及家居控制系统和方法_四川虹美智能科技有限公司_202411107752.8

模型相关技术

具有不确定运动模型的基于模型的控制_三菱电机株式会社_202280093314.3

气管插管训练模型_西安马克医疗科技有限公司_202420334501.2

发动机模型及安装有该发动机模型的飞机_中国商用飞机有限责任公司_202210207268.7

生成式大语言模型训练方法以及基于模型的搜索方法_北京百度网讯科技有限公司_202310233928.3

基于融合模型的水文模型参数自动率定方法、系统及介质_中国水利水电科学研究院_202411306357.2

高眼压动物模型的制备方法、动物模型及其用途_中国人民解放军总医院第三医学中心_202410279718.2

热源机系统、学习完毕模型的生成方法以及学习完毕模型_荏原冷热系统株式会社_202380025260.1

基于大视觉模型辅助的街景理解模型的训练方法_深圳市大数据研究院_202411303749.3

生成式大语言模型训练方法、基于模型的人机语音交互方法_北京百度网讯科技有限公司_202310233936.8

基于模型的信道状态信息_高通股份有限公司_202380024884.1

微调相关技术

一种具有微调结构的箱体_旭显未来(北京)科技有限公司_202323444837.9

一种清洁滚轮胶辊高度微调机构_郭胜明_202420124745.8

一种晶体谐振器微调装置_深圳市晶峰晶体科技有限公司_202411305891.1

一种光伏边框型材切割锯可微调锁紧装置_深圳市先豪科技有限公司_202420436841.6

用于少样本缺陷图像生成的扩散模型微调方法和装置_华中科技大学_202410796707.1

起重机微调检测旋转机构的使用方法_大连华齐泰精密仪器有限公司_202010565938.3

一种重型三向微调设备控制方法_成都煜恒科技有限公司_202411101089.0

一种可根据无人机信号进行微调的降落平台_河南景玄信息技术有限公司_202323555662.9

一种自动实现大语言模型微调的装置及方法_上海数珩信息科技股份有限公司_202410981185.2

一种吊装设备用吊具微调机构_天津浮斯特吊装工程有限公司_202420681608.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于结构与指令微调大语言模型的图像字幕生成模型

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务