首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种用于视觉语言导航任务的数据增广方法_西北工业大学_202410114601.9 

申请/专利权人:西北工业大学

申请日:2024-01-26

公开(公告)日:2024-05-31

公开(公告)号:CN118114041A

主分类号:G06F18/214

分类号:G06F18/214;G06F18/21;G06F18/25;G06F18/30;G06N3/045;G01C21/20

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.18#实质审查的生效;2024.05.31#公开

摘要:本发明公开了一种用于视觉语言导航任务的数据增广方法,首先利用导航图产生随机游走路径数据,并得到各路径点上的视觉观察,形成路径‑视觉观察对;然后对所产生的随机游走路径上的各路径点的数据观察进行视觉说明,形成路径‑视觉观察‑视点描述对;接下来利用已有标注数据对大语言模型的参数进行精调或者以示例方式指示大语言模型生成类似自然语言指令;之后使大语言模型对视觉说明进行文本总结和自然语言指令生成,形成路径‑视觉观察‑视点描述‑自然语言指令对;最终利用已有视觉语言导航模型对所需增广数据进行数据筛选。本发明能实现对原有数据集的增广,结果更加准确、高效。

主权项:1.一种用于视觉语言导航任务的数据增广方法,其特征在于,包括如下步骤:步骤1:利用导航图产生随机游走路径数据,并调用仿真器得到所生成随机游走路径的各路径点上的视觉观察,形成路径-视觉观察对;步骤2:采用基于多模态问答模型的视觉说明方法对所产生的随机游走路径上的各路径点的数据观察进行视觉说明,形成路径-视觉观察-视点描述对;步骤3:利用已有标注数据对大语言模型的参数进行精调或者以示例方式指示大语言模型生成类似自然语言指令;步骤4:利用大语言模型的文本生成、语义理解和文本总结能力,使大语言模型对步骤2形成的视觉说明进行文本总结和自然语言指令生成,形成路径-视觉观察-视点描述-自然语言指令对;步骤5:利用已有视觉语言导航模型对所需增广数据进行数据筛选。

全文数据:

权利要求:

百度查询: 西北工业大学 一种用于视觉语言导航任务的数据增广方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。