首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于视觉听觉融合的家用机器人控制系统及其方法_浙江孚宝智能科技有限公司_202410073810.3 

申请/专利权人:浙江孚宝智能科技有限公司

申请日:2024-01-18

公开(公告)日:2024-05-31

公开(公告)号:CN117718969B

主分类号:B25J9/16

分类号:B25J9/16

优先权:

专利状态码:有效-授权

法律状态:2024.05.31#授权;2024.04.05#实质审查的生效;2024.03.19#公开

摘要:本申请公开了一种基于视觉听觉融合的家用机器人控制系统及其方法,其通过利用机器人的摄像头和录音设备采集用户控制指令的手势监控视频和语音信号,并在后端引入数据处理和分析算法来实现对用户手势动作的识别和语音语义的理解,使机器人能够理解和响应用户的自然语言指令和手势动作,提高机器人的智能性和友好性。这样,能够实现基于对用户控制指令的视频‑语音多模态识别来进行家用机器人的行为控制,通过视觉听觉融合技术可以提供更全面的指令感知能力,使机器人能够适应不同的环境和用户需求,提高机器人的灵活性和鲁棒性,并提高机器人的性能和效率。

主权项:1.一种基于视觉听觉融合的家用机器人控制方法,其特征在于,包括:由家用机器人的摄像头采集用户控制指令的手势监控视频;由所述家用机器人的录音设备采集用户在施加控制指令时的语音提示;对所述语音提示进行语音识别以得到语音提示文本;对所述手势监控视频进行离散采样以得到手势监控关键帧的序列;通过基于深度神经网络模型的手势特征提取器分别对所述手势监控关键帧的序列进行特征提取以得到手势语义特征向量的序列;对所述语音提示文本进行语义编码以得到语音提示词特征向量的序列;对所述手势语义特征向量的序列和所述语音提示词特征向量的序列进行语义交互筛选融合分析以得到视频-语音多模态融合特征;以及基于所述视频-语音多模态融合特征,确定家用机器人的行为策略标签;其中,对所述手势语义特征向量的序列和所述语音提示词特征向量的序列进行语义交互筛选融合分析以得到视频-语音多模态融合特征,包括:将所述手势语义特征向量的序列和所述语音提示词特征向量的序列通过序列交互筛选融合模块以得到视频-语音多模态融合特征向量作为所述视频-语音多模态融合特征;其中,将所述手势语义特征向量的序列和所述语音提示词特征向量的序列通过序列交互筛选融合模块以得到视频-语音多模态融合特征向量作为所述视频-语音多模态融合特征,包括:将所述手势语义特征向量的序列通过基于全卷积神经网络模型的手势语义特征提取器以得到手势语义全卷积特征向量;将所述语音提示词特征向量的序列排列为语音提示全局特征向量;融合所述手势语义全卷积特征向量和所述语音提示全局特征向量以得到语音提示-手势语义融合特征向量;对所述语音提示词特征向量的序列进行语义关联编码以得到语音提示全局语义关联特征向量;融合所述语音提示-手势语义融合特征向量和所述语音提示全局语义关联特征向量以得到所述视频-语音多模态融合特征向量;其中,基于所述视频-语音多模态融合特征,确定家用机器人的行为策略标签,包括:对所述视频-语音多模态融合特征向量进行特征分布校正以得到校正后视频-语音多模态融合特征向量;将所述校正后视频-语音多模态融合特征向量通过分类器以得到分类结果,所述分类结果用于表示家用机器人的行为策略标签。

全文数据:

权利要求:

百度查询: 浙江孚宝智能科技有限公司 基于视觉听觉融合的家用机器人控制系统及其方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。