一种基于细粒度适配器的视觉问答方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：湖南大学

摘要：本发明公开了一种基于细粒度适配器的视觉问答方法，其从三个方面提升视觉问答的效果，一方面利用Spacy进行命名实体识别以获取问题中的特殊信息，同时利用Ground‑Dino模型能捕获到图片中与特殊信息相关的细粒度区域；另一方面，利用图文匹配预训练大模型CLIP提取图片的多粒度语义特征，利用语言预训练大模型llama‑7B提取文本语义特征，并利用视觉语义特征提取模块将视觉域迁移到语义域，实现了视觉和语义对齐，使模型兼具视觉感知能力与语义理解能力；最后，利用基于细粒度适配器微调llama‑7B预训练语言模型所得到的多模态模型生成问题的答案，由于适配器体量小，能够轻量级而高效地迁移预训练模型中的知识到具体的视觉问答任务上。

主权项：1.一种基于细粒度适配器的视觉问答方法，其特征在于，包括如下步骤：1获取图片与待回答问题，使用Spacy工具对该待回答问题进行命名实体识别，以得到该待回答问题中的名词，并使用Ground-Dino模型对图片进行目标检测，以得到图片的细粒度区域坐标。2通过llama-7B的分词器将步骤1得到的待回答问题转换为token序列，并根据步骤1得到的图片的细粒度区域坐标在步骤1得到的图片中进行截取操作，以得到多张细粒度区域图片，对步骤1得到的图片与所有细粒度区域图片进行预处理，以得到图像组张量。3将步骤2得到的token序列和图像组张量输入预先训练好的多模态模型中，以获取待回答问题的答案作为最终的视觉问答结果。

全文数据：

权利要求：

百度查询：湖南大学一种基于细粒度适配器的视觉问答方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种市政道路铺砖装置

下一篇：一种适用于垂直起降无人机的可折叠起落架

相关技术

一种市政道路铺砖装置

一种适用于垂直起降无人机的可折叠起落架

一种具有抹平结构的高分子胶涂胶设备

一种提高战场综合态势信息处理效率的方法

一种智能型多功能机械伤害体验装置

一种电驱机械振动辅助负压可弯导引鞘

一种高矫顽力的R-T-B永磁体及其制备方法和应用

一种焊接加热装置

一种光纤光栅生命体征监测装置和方法

一种改善6061铝合金挤压性的均匀化热处理方法及其铸棒

通过光学衍射改善粒度

一种便于安装的安防防盗报警装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于细粒度适配器的视觉问答方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务