一种轻量化个性人脸视觉配音方法

导航：龙图腾网> 最新专利技术> 一种轻量化个性人脸视觉配音方法

申请/专利权人：合肥工业大学

申请日：2024-05-27

公开（公告）日：2024-06-25

公开（公告）号：CN118250411A

主分类号：H04N5/265

分类号：H04N5/265;G06N3/0475;G06N3/045;G06N3/094;G06N3/082;G06N3/0464;G06N3/0495;G06V40/16;H04N21/234;H04N21/44

优先权：

专利状态码：在审-公开

法律状态：2024.06.25#公开

摘要：本发明涉及视觉配音技术领域，公开了一种轻量化个性人脸视觉配音方法，包括：将通用数据集的视频文件中的音频分离，得到音频文件；对音频文件进行语音特征提取，得到驱动音频；对视频文件进行面部特征图像提取和图像帧提取，分别得到面部特征图像和图像帧；构建基础视觉配音模型；构建损失函数一对基础视觉配音模型进行训练；对基础视觉配音模型进行剪枝和量化，得到轻量视觉配音模型；构建个性化数据集，通过个性化数据集以及损失函数二对轻量视觉配音模型进行训练；将视频文件以及用户的个人音频输入到轻量视觉配音模型，生成唇形能够匹配所述个人音频的合成视频。减小了模型的规模，提高了运行效率。

主权项：1.一种轻量化个性人脸视觉配音方法，包括以下步骤：步骤一，构建通用数据集并进行数据处理：将通用数据集的视频文件中的音频分离，得到音频文件；对音频文件进行语音特征提取，得到驱动音频；对视频文件进行面部特征图像提取和图像帧提取，分别得到面部特征图像和图像帧；步骤二，构建基础视觉配音模型：基础视觉配音模型包括形变网络和复原网络；形变网络的输入包括驱动音频、源人脸图像和参考人脸图像，其中，源人脸图像为所述图像帧经过人脸检测并加入嘴部掩码后得到的图像，参考人脸图像为所述面部特征图像；形变网络对驱动音频进行编码，得到音频编码特征；形变网络使用人脸特征编码器分别对源人脸图像和参考人脸图像进行特征提取，将得到的源人脸图像特征和参考人脸图像特征沿着特征通道堆叠并进行对齐，得到对齐特征；通过对和进行堆叠，得到空间形变系数；根据空间形变系数，对参考人脸图像特征进行自适应仿射变换的空间形变，得到形变特征图；将源人脸图像特征和形变特征图沿着特征通道堆叠后，输入到复原网络的解码器中，输出合成视频帧；将合成视频帧输入到判别器进行对抗训练，判别器输出用于表示合成视频帧是否真实的标签；构建损失函数一对基础视觉配音模型进行训练，损失函数一包括感知损失函数、生成对抗网络损失函数，以及同步损失函数：；为的权重；步骤三，对基础视觉配音模型进行剪枝和量化，得到轻量视觉配音模型：所述人脸特征编码器包括多个卷积层；对基础视觉配音模型进行剪枝时，为人脸特征编码器的每个卷积层引入结构化的掩码，在基础视觉配音模型前向传播过程中，通过按元素乘法将每个卷积层的权重矩阵与相应的掩码相乘，实现对每个卷积层的权重进行选择性应用；所述解码器包括多个卷积层；对基础视觉配音模型进行量化时，对解码器的卷积层的权重以及激活值进行整数量化处理；步骤四，构建符合用户偏好的个性化数据集，通过个性化数据集以及损失函数二对轻量视觉配音模型进行训练；；为用于推动掩码进行剪枝的稀疏性损失，为用于调整稀疏性损失的超参数；步骤五，将视频文件以及用户的个人音频输入到轻量视觉配音模型，生成唇形能够匹配所述个人音频的合成视频。

全文数据：

权利要求：

百度查询：合肥工业大学一种轻量化个性人脸视觉配音方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种叠加机

下一篇：混料搅拌装置

相关技术

一种叠加机

混料搅拌装置

一种房建施工用安全防坠装置

一种连续制备五氯化磷的装置

一种预应力钢绞线辅助穿束防缠绕工具

一种单因子加药泵回水安全阀

一种酶转化罐内部恒温搅拌机构

一种生态护坡绿化模块

一种细分子印刷喷粉加工用研磨装置

一种茶叶生产用高效翻炒装置

一种纸面石膏板加工用除尘装置

一种用于3C零件组装的点胶设备

视觉相关技术

手术视觉随动系统的控制方法及手术视觉随动系统_雅客智慧(北京)科技有限公司_202010773678.9

通用性CCD视觉检测机_深圳华谷动力科技有限公司_202321497632.4

视觉传感器快速标定方法_重庆大学_202210205438.8

基于计算机视觉的盾构机导向系统_山东拓新电气有限公司_202410410647.5

基于机器视觉的无线勘探检测机器人_广州清新环保科技股份有限公司_202323463544.5

一种小型免驱车载视觉终端_弈人(上海)科技有限公司_202420133639.6

一种工件上双面视觉检测分拣装置_山东海致磁电设备有限公司_202323079136.X

一种机器人视觉电缆_深圳讯道实业股份有限公司_202321423364.1

用于视觉传达设计的智能多媒体设备_南阳师范学院_202410421998.6

基于视觉-语义信息的图像概念可解释方法_浙江大学_202410416165.0

人脸相关技术

基于人脸识别的人脸对齐方法及装置_平安科技(深圳)有限公司_202011626746.5

一种人脸图像复原方法、人脸图像退化方法和装置_中山大学_202410359349.8

人脸识别方法、装置、系统、设备及存储介质_中国电信股份有限公司_202211715533.9

一种人脸验证攻击方法和装置_杭州师范大学_202210272519.X

人脸识别方法、装置、设备及介质_北京罗克维尔斯科技有限公司_202211682684.9

人脸图像修正方法、装置、设备及介质_北京小米移动软件有限公司_202211690325.8

一种可调式人脸识别门禁_杭州崇广科技有限公司_202323329422.7

一种挂架及人脸识别设备_天津市铭远通科技有限公司_202323373678.8

一种戴口罩的人脸识别方法_沈阳工业大学_202010770732.4

一种基于AI人脸识别的智能安防系统及使用方法_南京会鉴科技有限公司_202410390275.4

个性相关技术

一种多模态个性化内容生成方法_清华大学深圳国际研究生院_202410333535.4

一种细分用户个性化广告投放方法及系统_北京六一六信息技术有限公司_202410677566.1

基于生成对抗网络的个性化肖像生成系统及方法_哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)_202310726659.4

一种个性化口腔种植骨粉塑型装置_傅思宇_202410280614.3

用于电子设备的个性化说话检测器_谷歌有限责任公司_201980094997.2

一种用于个性化营销的用户情感分析方法及系统_江苏斑马软件技术有限公司_202410332613.9

SIM卡数据规则个性化自动配置方法、装置及设备_东信和平科技股份有限公司_202410331319.6

个性化的驾驶训练方法、终端设备及系统_本田技研工业(中国)投资有限公司_202211673619.X

个性化营销策略推荐方法、系统、设备及介质_中国电信股份有限公司_202410404435.6

一种个性化学习资源推荐系统及装置_上海万瑞隆教育科技有限公司_202410528903.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种轻量化个性人脸视觉配音方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务