首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种大模型驱动的具身智能体零样本目标导航方法 

申请/专利权人:西安交通大学

申请日:2024-03-05

公开(公告)日:2024-06-28

公开(公告)号:CN118258396A

主分类号:G01C21/20

分类号:G01C21/20

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本发明公开了一种大模型驱动的具身智能体零样本目标导航方法,包括:首先,具身智能体通过旋转拍摄来获取场景的彩色和深度图像;使用YOLOv7和DETR模型处理彩色图像以识别物体标签,同时运用LLaVA和CLIP模型对图像生成字幕,描述场景内容。这些信息作为导航的场景线索;基于这些线索,通过LLaMA和GPT‑4模型推理并决定智能体的导航过渡点;在Gazebo仿真平台上,利用gmapping和hector_slam工具进行路径规划,构建导航代价图,使智能体能够避开障碍物。智能体到达新的导航过渡点后,使用GLIP和InstructDET模型进行开放语义目标定位;如果目标定位准确度达到预设阈值,将触发目标导航成功信号;否则,智能体将继续推理下一步导航过渡点,并重复该流程直至导航成功或失败。

主权项:1.一种大模型驱动的具身智能体零样本目标导航方法,其特征在于,包括以下步骤:步骤一、基于智能体传感器的环境感知:智能体在当前位置旋转一周,并通过视频拍摄传感器拍摄场景的多张不重复彩色图像和深度图像;步骤二、多模态大模型驱动的场景线索获取:利用目标检测视觉大模型处理彩色图像,获得场景中的物体标签;同时,通过字幕生成大模型对彩色图像进行字幕输出,获得该场景主题介绍,物体标签和主题介绍同时作为场景线索;其中,用于目标检测的视觉大模型为YOLOv7和DETR,用于图像的字幕生成大模型为LLaVA和CLIP;步骤三、大语言模型驱动的导航推理决策:基于场景线索,通过自适应提示文本模板构造大语言模型的输入,大语言模型推理并反馈其指导建议,即所述场景线索中的具体物体,作为该智能体后续导航过渡点;步骤四、基于Gazebo仿真平台的ROS路径规划:在Gazebo仿真平台上,基于步骤一获取的深度图像,利用SLAM仿真工具gmapping和hector_slam构建导航代价图,并将步骤三获取的导航过渡点映射至该导航代价图,控制智能体朝代价图上过渡点对应的方向行进;步骤五、基于视觉大模型的开放语义目标定位:待智能体到达新导航过渡点,重复旋转一周并拍摄周围彩色图像,通过视觉大模型GLIP和InstructDET对图像进行开放语义目标定位,当目标对象定位的准确性超过预设阅值,则触发目标导航成功信号,否则,智能体推理下一步导航过渡点并行进,循环该流程直至导航成功或者超过最大循环步即导航失败。

全文数据:

权利要求:

百度查询: 西安交通大学 一种大模型驱动的具身智能体零样本目标导航方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。