首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种轻量化个性人脸视觉配音方法 

申请/专利权人:合肥工业大学

申请日:2024-05-27

公开(公告)日:2024-06-25

公开(公告)号:CN118250411A

主分类号:H04N5/265

分类号:H04N5/265;G06N3/0475;G06N3/045;G06N3/094;G06N3/082;G06N3/0464;G06N3/0495;G06V40/16;H04N21/234;H04N21/44

优先权:

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:本发明涉及视觉配音技术领域,公开了一种轻量化个性人脸视觉配音方法,包括:将通用数据集的视频文件中的音频分离,得到音频文件;对音频文件进行语音特征提取,得到驱动音频;对视频文件进行面部特征图像提取和图像帧提取,分别得到面部特征图像和图像帧;构建基础视觉配音模型;构建损失函数一对基础视觉配音模型进行训练;对基础视觉配音模型进行剪枝和量化,得到轻量视觉配音模型;构建个性化数据集,通过个性化数据集以及损失函数二对轻量视觉配音模型进行训练;将视频文件以及用户的个人音频输入到轻量视觉配音模型,生成唇形能够匹配所述个人音频的合成视频。减小了模型的规模,提高了运行效率。

主权项:1.一种轻量化个性人脸视觉配音方法,包括以下步骤:步骤一,构建通用数据集并进行数据处理:将通用数据集的视频文件中的音频分离,得到音频文件;对音频文件进行语音特征提取,得到驱动音频;对视频文件进行面部特征图像提取和图像帧提取,分别得到面部特征图像和图像帧;步骤二,构建基础视觉配音模型:基础视觉配音模型包括形变网络和复原网络;形变网络的输入包括驱动音频、源人脸图像和参考人脸图像,其中,源人脸图像为所述图像帧经过人脸检测并加入嘴部掩码后得到的图像,参考人脸图像为所述面部特征图像;形变网络对驱动音频进行编码,得到音频编码特征;形变网络使用人脸特征编码器分别对源人脸图像和参考人脸图像进行特征提取,将得到的源人脸图像特征和参考人脸图像特征沿着特征通道堆叠并进行对齐,得到对齐特征;通过对和进行堆叠,得到空间形变系数;根据空间形变系数,对参考人脸图像特征进行自适应仿射变换的空间形变,得到形变特征图;将源人脸图像特征和形变特征图沿着特征通道堆叠后,输入到复原网络的解码器中,输出合成视频帧;将合成视频帧输入到判别器进行对抗训练,判别器输出用于表示合成视频帧是否真实的标签;构建损失函数一对基础视觉配音模型进行训练,损失函数一包括感知损失函数、生成对抗网络损失函数,以及同步损失函数:;为的权重;步骤三,对基础视觉配音模型进行剪枝和量化,得到轻量视觉配音模型:所述人脸特征编码器包括多个卷积层;对基础视觉配音模型进行剪枝时,为人脸特征编码器的每个卷积层引入结构化的掩码,在基础视觉配音模型前向传播过程中,通过按元素乘法将每个卷积层的权重矩阵与相应的掩码相乘,实现对每个卷积层的权重进行选择性应用;所述解码器包括多个卷积层;对基础视觉配音模型进行量化时,对解码器的卷积层的权重以及激活值进行整数量化处理;步骤四,构建符合用户偏好的个性化数据集,通过个性化数据集以及损失函数二对轻量视觉配音模型进行训练;;为用于推动掩码进行剪枝的稀疏性损失,为用于调整稀疏性损失的超参数;步骤五,将视频文件以及用户的个人音频输入到轻量视觉配音模型,生成唇形能够匹配所述个人音频的合成视频。

全文数据:

权利要求:

百度查询: 合肥工业大学 一种轻量化个性人脸视觉配音方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。