首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种人脸身份感知的数字人唇动生成方法和模型训练方法 

申请/专利权人:浙江大学;杭州一知智能科技有限公司

申请日:2024-03-27

公开(公告)日:2024-06-28

公开(公告)号:CN118262015A

主分类号:G06T13/20

分类号:G06T13/20;G10L19/022;G10L19/16;G10L25/03;G10L25/57;G06T13/40;G06V40/16;G06V10/80;G06V10/82;G06N3/0455;G06N3/0464;G06N3/084

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本发明公开了一种人脸身份感知的数字人唇动生成方法和模型训练方法,属于人工智能技术领域。获取驱动语音和待驱动的数字人视频,计算每一帧图像对应的编码后的语音特征;逐帧提取数字人视频每一帧图像的原始人脸特征图、人脸身份向量和人脸3D身份向量,将身份向量、编码后的语音特征拼接并转化为与所述原始人脸特征图相同通道数的融合特征,将融合特征注入原始人脸特征图中,生成合成人脸特征图,解码生成合成人脸图,进一步生成合成的新数字人视频。上述方法采用的模型采用交替训练方式。本发明生成的合成人脸视频具备更高的稳定性,唇部和面部运动更加自然真实,还能够使用更少的数据量和更少的训练周期实现定制化唇动模型。

主权项:1.一种人脸身份感知的数字人唇动生成方法,其特征在于,包括:获取驱动语音和待驱动的数字人视频;计算驱动语音的原始语音特征并编码,得到数字人视频每一帧图像对应的编码后的语音特征;逐帧提取数字人视频每一帧图像的原始人脸特征图、人脸身份向量和人脸3D身份向量,将所述的人脸身份向量、人脸3D身份向量、编码后的语音特征拼接并转化为与所述原始人脸特征图相同通道数的融合特征,将融合特征注入原始人脸特征图中,生成合成人脸特征图,解码生成合成人脸图;将合成人脸图放回数字人视频原始帧对应位置,得到合成视频帧,逐帧拼接合成视频帧,生成合成的新数字人视频。

全文数据:

权利要求:

百度查询: 浙江大学;杭州一知智能科技有限公司 一种人脸身份感知的数字人唇动生成方法和模型训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。