首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于大语言模型和视频理解的模仿学习方法 

申请/专利权人:浙江工业大学

申请日:2024-04-10

公开(公告)日:2024-06-25

公开(公告)号:CN118238139A

主分类号:B25J9/16

分类号:B25J9/16;B25J9/22

优先权:

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:一种基于大语言模型和视频理解的模仿学习方法,首先,提取演示视频的多模态信息并通过大语言模型处理,初步生成任务规划;然后,将视频信息输入机器人执行框架,生成新的任务规划;其次,提出一种基于SimCSE的文本相似度计算和特征融合算法对两种任务规划进行融合,有效解决了模仿学习所需的庞大机器人训练数据问题,并显著提高了对新任务的泛化能力;本发明提供了一种仅从演示视频中进行零样本模仿学习的方法。

主权项:1.一种基于大语言模型和视频理解的模仿学习方法,其特征在于,所述方法包括以下步骤:1视觉信息提取:给定一个具有N帧的视频,通过图像编码器将每帧映射为Kf个图像嵌入向量,得到视频嵌入向量如式1-1所示:V=[v1,v2,...,vN]1-1其中为第i帧视频对应的df维图像嵌入向量;向图像嵌入向量vi中加入位置编码作为事件表示,并将其作为输入交给动态视觉检测器进行特征聚合处理,得到维度为dv的图像嵌入向量其中kV表示每帧视频所映射的图像嵌入向量的个数;然后,通过一个线性层,将视频嵌入向量转换为视频查询向量,其中视频查询向量与大语言模型的文本嵌入具有相同的维数;在前向传递过程中,视频查询向量将作为视频软提示连接到文本嵌入中,并引导冻结的大语言模型根据视频内容生成文本;2音频信息提取:给定一个视频,首先从视频中均匀采样M段设定时长的音频片段;然后使用梅尔频谱图箱将每个设定时长的音频片段转换为频谱图;在获得输入音频的频谱图列表后,使用预训练的Imagebind作为音频编码器,音频编码器将每个频谱图映射成一个密集向量ai;对于给定视频,所生成的音频嵌入向量表示为A=[a1,a2,...,aM];向音频嵌入向量A中加入位置编码作为事件表示,并将其作为输入交给视听集成模块处理成如式1-2所示的定长序列 其中Ka为音频嵌入向量的个数,da为每个向量的维数;然后使用线性层将定长序列映射到大语言模型的嵌入空间;3生成执行子步骤:结合步骤12中获得的视觉信息和音频信息,通过大语言模型能够充分理解视频中的执行细节和视频背后的任务意图,生成如式1-3所示的指令 其中si为该指令的执行子步骤;然后,通过机器人执行框架VoxPoser提取大语言模型生成的指令中的任务目标和约束信息;结合感知模块所得到的真实环境的信息,VoxPoser可以生成如式1-4所示的指令 其中li为该指令的执行子步骤;4计算si和li的文本相似性:通过使用一个对比学习文本嵌入框架SimCSE,将演示视频对应的任务规划si和真实工作环境对应的任务规划li分别转化到嵌入向量空间中,并计算它们的文本相似性;给定一批文本定义文本特征向量表示为其中fθ表示句子编码器,z表示dropout的随机掩码,xi表示输入文本,另外一组特征向量表示为z′表示dropout的随机掩码;根据对比学习,无监督的SimCSE的优化目标表示为如式1-5: 其中表示两个特征向量的余弦相似性,τ是温度系数,N为一批句子的数量;在无监督的SimCSE优化过程中,正样本对的相似度逐渐增大,负样本对的相似度逐渐减小,使得目标函数的损失值趋于最小值;5结合演示视频和真实环境的信息生成新的执行子步骤:对于根据演示视频提取得到的执行子步骤si和根据真实环境得到的执行子步骤li,通过无监督的SimCSE得到si和li的相似度矩阵T;相似度矩阵T中每行最大值所对应的si和li互为正样本对,若互为正样本对的两个句子的相似度高于本文设定的相似度阈值h,则将其直接添加进新的执行步骤中,其中pi表示新的执行步骤中的执行子步骤;对于相似度低于阈值的si和li,则需要融合对应的si和li的语义信息以生成新的执行子步骤pi,并将其添加进新的执行步骤中;6通过VoxPoser执行新生成的步骤将新的执行步骤作为VoxPoser的输入,大语言模型根据这些内容编写代码,所生成的代码与视觉语言模型进行交互,指导系统生成相应的操作指示地图;然后将生成的操作指示地图作为运动规划器的目标函数,可以表述为一个优化问题,定义为如式1-6: 其中,Ti为环境状态的演化,为机器人轨迹,为相关的动力学和运动学约束,表示对于指令pi,当前环境状态Ti完成该指令的程度,表示机器人的控制成本;该优化问题的目标是使生成的机器人轨迹能够在完成指令pi的同时花费最小的控制时间;通过求解每个子任务pi的优化问题,得到一个机器人轨迹序列,这些轨迹序列共同实现指令指定的整体任务。

全文数据:

权利要求:

百度查询: 浙江工业大学 一种基于大语言模型和视频理解的模仿学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。