【发明公布】一种用于视觉语言导航任务的数据增广方法_西北工业大学_202410114601.9

导航：龙图腾网> 最新专利技术> 一种用于视觉语言导航任务的数据增广方法_西北工业大学_202410114601.9

申请/专利权人：西北工业大学

申请日：2024-01-26

公开（公告）日：2024-05-31

公开（公告）号：CN118114041A

主分类号：G06F18/214

分类号：G06F18/214;G06F18/21;G06F18/25;G06F18/30;G06N3/045;G01C21/20

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.06.18#实质审查的生效;2024.05.31#公开

摘要：本发明公开了一种用于视觉语言导航任务的数据增广方法，首先利用导航图产生随机游走路径数据，并得到各路径点上的视觉观察，形成路径‑视觉观察对；然后对所产生的随机游走路径上的各路径点的数据观察进行视觉说明，形成路径‑视觉观察‑视点描述对；接下来利用已有标注数据对大语言模型的参数进行精调或者以示例方式指示大语言模型生成类似自然语言指令；之后使大语言模型对视觉说明进行文本总结和自然语言指令生成，形成路径‑视觉观察‑视点描述‑自然语言指令对；最终利用已有视觉语言导航模型对所需增广数据进行数据筛选。本发明能实现对原有数据集的增广，结果更加准确、高效。

主权项：1.一种用于视觉语言导航任务的数据增广方法，其特征在于，包括如下步骤：步骤1：利用导航图产生随机游走路径数据，并调用仿真器得到所生成随机游走路径的各路径点上的视觉观察，形成路径-视觉观察对；步骤2：采用基于多模态问答模型的视觉说明方法对所产生的随机游走路径上的各路径点的数据观察进行视觉说明，形成路径-视觉观察-视点描述对；步骤3：利用已有标注数据对大语言模型的参数进行精调或者以示例方式指示大语言模型生成类似自然语言指令；步骤4：利用大语言模型的文本生成、语义理解和文本总结能力，使大语言模型对步骤2形成的视觉说明进行文本总结和自然语言指令生成，形成路径-视觉观察-视点描述-自然语言指令对；步骤5：利用已有视觉语言导航模型对所需增广数据进行数据筛选。

全文数据：

权利要求：

百度查询：西北工业大学一种用于视觉语言导航任务的数据增广方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种下废料机构_东莞市雅康精密机械有限公司_202410089766.5

下一篇：基于噪声的电网级联故障模型优化方法、系统及存储介质_杭州中恒电气股份有限公司_202410141909.2

相关技术

一种下废料机构_东莞市雅康精密机械有限公司_202410089766.5

基于噪声的电网级联故障模型优化方法、系统及存储介质_杭州中恒电气股份有限公司_202410141909.2

显示面板_友达光电股份有限公司_202410577962.7

衣物处理设备_无锡美芝电器有限公司_202311119350.5

一种耐磨PC/ABS合金材料及其制备方法_上海祺申塑业股份有限公司_202410270393.1

一种项目群风险分析方法_北京交通大学_202410150769.5

一种用于毛纱加工的络筒机_江苏申洲毛纺有限公司_202410675389.3

一种水下航行器用姿态调节机构_西北工业大学宁波研究院_202410162046.7

一种基板玻璃生产过程中使用的加热系统及控制方法_彩虹(合肥)液晶玻璃有限公司_202410273621.0

一种智能交通巡检车车载监测系统_讯天科技(南京)有限公司_202410658319.7

一种适用于复杂环境的氮氧化物监测仪表_山东创宇能源科技股份有限公司_202410668041.1

一种差压式管路气密检测设备用固定装置_青岛宏展科技发展有限公司_202410108762.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】一种用于视觉语言导航任务的数据增广方法_西北工业大学_202410114601.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务