【发明公布】基于关系对齐的视觉问答方法、装置、设备、介质及产品_西安电子科技大学广州研究院;琶洲实验室(黄埔)_202410221827.9

申请/专利权人：西安电子科技大学广州研究院;琶洲实验室(黄埔)

申请日：2024-02-28

公开（公告）日：2024-06-18

公开（公告）号：CN118211657A

主分类号：G06N5/04

分类号：G06N5/04;G06V20/70;G06V10/82;G06N3/0455;G06N3/08

优先权：

专利状态码：在审-公开

法律状态：2024.06.18#公开

摘要：本发明公开了一种基于关系对齐的视觉问答方法、装置、设备、介质及产品，包括：获取大规模数据集中图像的视觉目标特征、文本目标标签、语言特征、视觉关系特征和文本关系标签，对预设模型的编码器进行预训练任务的学习，得到预训练完成的模型参数；其中预训练任务包括实体对齐任务、关系对齐任务、全局对齐任务和跨模态对齐任务，分别用于预训练编码器中的物体编码器、关系编码器、语言编码器和跨模态编码器；根据参数进行视觉问答模型的微调，修改问题的输入方式并对视觉问答训练样本进行训练，得到目标视觉问答模型；输入待测图像和问题文本到目标视觉问答模型，得到视觉问答结果。采用本发明实施例，能够学习关系信息，提高视觉问答的准确性。

主权项：1.一种基于关系对齐的视觉问答方法，其特征在于，包括：获取大规模数据集和视觉问答训练样本；根据所述大规模数据集中的图像，获取所述图像的视觉目标特征、文本目标标签、语言特征、视觉关系特征和文本关系标签；根据所述视觉目标特征、所述文本目标标签、所述语言特征、所述视觉关系特征和所述文本关系标签，对预设Transformer-Based模型的编码器进行预训练任务的学习，得到预训练完成的Transformer-Based模型参数；其中，所述预训练任务包括实体对齐任务、关系对齐任务、全局对齐任务和跨模态对齐任务，分别用于预训练所述编码器中的物体编码器、关系编码器、语言编码器和跨模态编码器；根据所述参数进行视觉问答模型的微调，修改问题的输入方式并对所述视觉问答训练样本进行训练，得到目标视觉问答模型；输入待测图像和问题文本到所述目标视觉问答模型，得到视觉问答结果。

全文数据：

权利要求：

百度查询：西安电子科技大学广州研究院;琶洲实验室(黄埔) 基于关系对齐的视觉问答方法、装置、设备、介质及产品

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种化学发光免疫分析仪的试剂仓_山东中鸿特检生物科技有限公司_202410659557.X

下一篇：一种基于遥测信号辅助的干涉测量带宽综合方法_北京航天飞行控制中心_202410175613.2

相关技术

一种化学发光免疫分析仪的试剂仓_山东中鸿特检生物科技有限公司_202410659557.X

一种基于遥测信号辅助的干涉测量带宽综合方法_北京航天飞行控制中心_202410175613.2

一种草甘膦连续脱溶生产工艺_安徽东至广信农化有限公司_202410344390.8

一种内置旋转式堰门一体化分流井_高邮市恒立液压成套设备有限公司_202211640138.9

一种基于无人机图像的安全帽与反光衣检测方法_东北林业大学_202410326065.9

车辆控制装置、车辆控制方法以及非暂时性存储介质_丰田自动车株式会社_202311560781.5

一种电磁炉陶瓷凹盘及其制备方法_佛山市越富炉具实业有限公司_202410294934.4

针对根据亮度预测色度的预测选择下采样滤波器_腾讯美国有限责任公司_202280075374.2

对准失真的图像_ASML荷兰有限公司_202280075359.8

乙烷混合液烃萃取精馏脱碳系统及方法_长庆工程设计有限公司_202211655444.X

无线通信方法及系统_杭州九阳小家电有限公司_202211640089.9

一种隔振器_沈阳航空航天大学_202410227503.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】基于关系对齐的视觉问答方法、装置、设备、介质及产品_西安电子科技大学广州研究院;琶洲实验室(黄埔)_202410221827.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务