首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】数字人交互方法及系统、计算机可读存储介质、数字人设备_华院计算技术(上海)股份有限公司_202311057771.X 

申请/专利权人:华院计算技术(上海)股份有限公司

申请日:2023-08-21

公开(公告)日:2024-06-21

公开(公告)号:CN117234369B

主分类号:G06F3/0481

分类号:G06F3/0481;G06T13/40;G06V10/80

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.01.02#实质审查的生效;2023.12.15#公开

摘要:本发明公开一种数字人交互方法及系统、计算机可读存储介质、数字人设备,该方法包括:接收包含语音的用户交互视频;将所述用户交互视频分离为视频帧和语音,将所述语音转换为文本,得到多模态数据;根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码;根据各模态的情绪感知结果或感知编码确定控制标签向量;将所述控制标签向量融合到各模态的感知编码中;根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容;将所述基于视频、语音、文本的生成内容进行合成处理,得到合成视频。利用本发明方案,可以有效提高数字人的情感识别和表达能力,提升用户使用体验和效率。

主权项:1.一种数字人交互方法,其特征在于,所述方法包括:接收包含语音的用户交互视频;将所述用户交互视频分离为视频帧和语音,将所述语音转换为文本,得到多模态数据;根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码,所述情绪感知结果是情绪感知模型的决策结果,所述感知编码是情绪感知模型的中间信息;根据各模态的情绪感知结果或感知编码确定控制标签向量,所述控制标签向量用于使对应不同模态数据的生成内容具有情感一致性;将所述控制标签向量融合到各模态的感知编码中,根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容;将所述基于视频、语音、文本的生成内容进行合成处理,得到合成视频。

全文数据:

权利要求:

百度查询: 华院计算技术(上海)股份有限公司 数字人交互方法及系统、计算机可读存储介质、数字人设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。