一种基于大语言模型和视频理解的模仿学习方法

导航：龙图腾网> 最新专利技术> 一种基于大语言模型和视频理解的模仿学习方法

申请/专利权人：浙江工业大学

申请日：2024-04-10

公开（公告）日：2024-06-25

公开（公告）号：CN118238139A

主分类号：B25J9/16

分类号：B25J9/16;B25J9/22

优先权：

专利状态码：在审-公开

法律状态：2024.06.25#公开

摘要：一种基于大语言模型和视频理解的模仿学习方法，首先，提取演示视频的多模态信息并通过大语言模型处理，初步生成任务规划；然后，将视频信息输入机器人执行框架，生成新的任务规划；其次，提出一种基于SimCSE的文本相似度计算和特征融合算法对两种任务规划进行融合，有效解决了模仿学习所需的庞大机器人训练数据问题，并显著提高了对新任务的泛化能力；本发明提供了一种仅从演示视频中进行零样本模仿学习的方法。

主权项：1.一种基于大语言模型和视频理解的模仿学习方法，其特征在于，所述方法包括以下步骤：1视觉信息提取：给定一个具有N帧的视频，通过图像编码器将每帧映射为Kf个图像嵌入向量，得到视频嵌入向量如式1-1所示：V＝[v1,v2,...,vN]1-1其中为第i帧视频对应的df维图像嵌入向量；向图像嵌入向量vi中加入位置编码作为事件表示，并将其作为输入交给动态视觉检测器进行特征聚合处理，得到维度为dv的图像嵌入向量其中kV表示每帧视频所映射的图像嵌入向量的个数；然后，通过一个线性层，将视频嵌入向量转换为视频查询向量，其中视频查询向量与大语言模型的文本嵌入具有相同的维数；在前向传递过程中，视频查询向量将作为视频软提示连接到文本嵌入中，并引导冻结的大语言模型根据视频内容生成文本；2音频信息提取：给定一个视频，首先从视频中均匀采样M段设定时长的音频片段；然后使用梅尔频谱图箱将每个设定时长的音频片段转换为频谱图；在获得输入音频的频谱图列表后，使用预训练的Imagebind作为音频编码器，音频编码器将每个频谱图映射成一个密集向量ai；对于给定视频，所生成的音频嵌入向量表示为A＝[a1,a2,...,aM]；向音频嵌入向量A中加入位置编码作为事件表示，并将其作为输入交给视听集成模块处理成如式1-2所示的定长序列其中Ka为音频嵌入向量的个数，da为每个向量的维数；然后使用线性层将定长序列映射到大语言模型的嵌入空间；3生成执行子步骤：结合步骤12中获得的视觉信息和音频信息，通过大语言模型能够充分理解视频中的执行细节和视频背后的任务意图，生成如式1-3所示的指令其中si为该指令的执行子步骤；然后，通过机器人执行框架VoxPoser提取大语言模型生成的指令中的任务目标和约束信息；结合感知模块所得到的真实环境的信息，VoxPoser可以生成如式1-4所示的指令其中li为该指令的执行子步骤；4计算si和li的文本相似性：通过使用一个对比学习文本嵌入框架SimCSE，将演示视频对应的任务规划si和真实工作环境对应的任务规划li分别转化到嵌入向量空间中，并计算它们的文本相似性；给定一批文本定义文本特征向量表示为其中fθ表示句子编码器，z表示dropout的随机掩码，xi表示输入文本，另外一组特征向量表示为z′表示dropout的随机掩码；根据对比学习，无监督的SimCSE的优化目标表示为如式1-5: 其中表示两个特征向量的余弦相似性，τ是温度系数，N为一批句子的数量；在无监督的SimCSE优化过程中，正样本对的相似度逐渐增大，负样本对的相似度逐渐减小，使得目标函数的损失值趋于最小值；5结合演示视频和真实环境的信息生成新的执行子步骤：对于根据演示视频提取得到的执行子步骤si和根据真实环境得到的执行子步骤li，通过无监督的SimCSE得到si和li的相似度矩阵T；相似度矩阵T中每行最大值所对应的si和li互为正样本对，若互为正样本对的两个句子的相似度高于本文设定的相似度阈值h，则将其直接添加进新的执行步骤中，其中pi表示新的执行步骤中的执行子步骤；对于相似度低于阈值的si和li，则需要融合对应的si和li的语义信息以生成新的执行子步骤pi，并将其添加进新的执行步骤中；6通过VoxPoser执行新生成的步骤将新的执行步骤作为VoxPoser的输入，大语言模型根据这些内容编写代码，所生成的代码与视觉语言模型进行交互，指导系统生成相应的操作指示地图；然后将生成的操作指示地图作为运动规划器的目标函数，可以表述为一个优化问题，定义为如式1-6: 其中，Ti为环境状态的演化，为机器人轨迹，为相关的动力学和运动学约束，表示对于指令pi，当前环境状态Ti完成该指令的程度，表示机器人的控制成本；该优化问题的目标是使生成的机器人轨迹能够在完成指令pi的同时花费最小的控制时间；通过求解每个子任务pi的优化问题，得到一个机器人轨迹序列，这些轨迹序列共同实现指令指定的整体任务。

全文数据：

权利要求：

百度查询：浙江工业大学一种基于大语言模型和视频理解的模仿学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种带固定结构的冲压装置

下一篇：一种用于无级变速器的传动带金属环结构

相关技术

一种带固定结构的冲压装置

一种用于无级变速器的传动带金属环结构

一种细分子印刷喷粉加工用研磨装置

一种空调器自清洁系统油污沉淀装置

一种生态护坡绿化模块

一种砻谷机风选取粮器

一种纸面石膏板加工用除尘装置

一种叠加机

一种水利施工用混凝土搅拌装置

一种可移动式智能温控糖化槽生产线

一种液体沥青取样装置

一种螺旋输送装置

模仿相关技术

一种基于大语言模型和视频理解的模仿学习方法_浙江工业大学_202410428393.X

在训练和细化机器人控制策略中使用模仿学习的系统和方法_谷歌有限责任公司_202280033988.4

基于元模仿学习的多智能体博弈强化学习安全测试方法和系统_浙江工业大学_202410225885.9

一种凸轮轴摆动磨削表面微观形貌建模仿真分析方法_江苏科技大学_202111387583.4

一种基于人工智能的数字化建模仿真系统及方法_江苏大中电机股份有限公司_202410641651.2

一种高精度手势模仿机械手_成都航空职业技术学院_202323138730.1

一种飞机第二动力系统的建模仿真系统_北京航空航天大学_202410006602.1

基于视觉的手势识别模仿对比学习非遗手工艺的方法_西北工业大学_202410333198.9

一种芯片建模仿真方法、产品、设备及介质_山东云海国创云计算装备产业创新中心有限公司_202410621029.5

一种模仿人类记忆的移动机器人目标搜索方法_杭州电子科技大学_202111674326.9

视频相关技术

视频生成方法、视频生成装置和可读存储介质_北京智境云创科技有限公司_202410371281.5

一种基于VoLTE视频客服辅助视频卡片推送方法_广东亿迅科技有限公司_202211697387.1

视频文件播放方法、视频文件推送方法及相关产品_行吟信息科技(上海)有限公司_202410290971.8

一种基于视频内容理解的视频增强方法及系统_华南理工大学_202410430364.7

视频解码的方法和装置、视频编码的方法和装置及存储介质_腾讯美国有限责任公司_202310927560.0

基于协同自监督视频表示学习的视频动作识别方法及装置_中国科学院计算技术研究所_202410418093.3

视频编解码的方法和装置_腾讯美国有限责任公司_201980071555.6

视频处理方法、装置及播放设备_北京字跳网络技术有限公司_202211678257.3

一种HDMI视频录制器_深圳驰睿视讯科技有限公司_202322810699.5

视频编码、解码的方法和装置_腾讯美国有限责任公司_202080062531.7

理解相关技术

一种基于视频内容理解的视频增强方法及系统_华南理工大学_202410430364.7

用于接合的热管理解决方案的远程机械附接_英特尔公司_202311278060.5

一种3D场景理解方法、系统、电子设备及存储介质_上海人工智能创新中心_202211673985.5

基于跨语言表示学习的语义理解方法及装置_中国科学院新疆理化技术研究所_202410332204.9

一种基于大语言模型和视频理解的模仿学习方法_浙江工业大学_202410428393.X

机器阅读理解模型、机器阅读理解方法、装置及设备_中移雄安信息通信科技有限公司_202410402416.X

对话理解方法、装置、可读介质及电子设备_北京有竹居网络技术有限公司_202011227571.0

基于特征点法视觉SLAM的场景理解导航方法及系统_常熟理工学院_202410317058.2

一种基于结构化场景理解的目标导航方法及装置_北京科技大学_202410181460.2

一种病理解剖用的切片观察台_中国人民解放军新疆军区总医院_202322527794.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于大语言模型和视频理解的模仿学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务