一种融合人声特征与人脸特征的智能视频剪辑方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西南交通大学

摘要：本发明涉及视频剪辑技术领域，涉及一种融合人声特征与人脸特征的智能视频剪辑方法，包括：S1、场景镜头拆分，将输入的视频拆分成多个场景镜头片段，然后对每个场景镜头片段进行滑窗切片；S2、智能视频剪辑S2.1、对切片后的片段进行目标检测和显著性检测；S2.2、多主角类视频的判定：判定片段是否为多人物主角类，若是，则采用人声与人脸智能匹配方法；S2.3、通过人声与人脸智能匹配方法分析得到视频每段的说话人主体目标框，再通过按比例对视频进行裁剪，再对多片段和原语音进行合成，最后对视频进行平滑即可输出最后的裁剪的短视频结果。本发明能够应对多主角人物视频自动剪辑中的音画不匹配。

主权项：1.一种融合人声特征与人脸特征的智能视频剪辑方法，其特征在于：包括以下步骤：S1、场景镜头拆分将输入的视频拆分成多个场景镜头片段，然后对每个场景镜头片段进行滑窗切片；S2、智能视频剪辑S2.1、对切片后的片段进行目标检测和显著性检测；S2.2、多主角类视频的判定：判定片段是否为多人物主角类，若是，则采用人声与人脸智能匹配方法；人声与人脸智能匹配方法为：1使用FFmpeg将片段的音频与图像进行分离；2对音频数据进行人声提取，提取出视频的主要人声；3对人声进行不同说话人聚类处理，将相同音色的人声聚为一类，从而统计出说话人的个数，及每个说话人的时间片段；4对每个说话人分别进行语音性别、年龄识别；5基于Speech2Face神经网络系统，通过人声来绘制面孔；6对图像数据进行处理：通过YOLO-v5对图像进行画面主体人物检测，然后通过RetinaNet人脸检测算法提取人脸与人脸识别；人脸进行识别与人脸特征分析，得到人脸的性别与年龄预测；7对视频人脸进行唇动检测，检测出视频中该片段内该人脸是否在唇动；8将音频得到的特征与图像的特征进行建模，得到音画匹配模型；音画匹配模型建模过程如下：A、挑选当前时间段的图像中所有人脸中唇动的人脸；B、使用唇动人脸图像分析出的性别、年龄，与音频当前的分析的性别、年龄相匹配，如果能直接匹配上，则直接将人脸作为说话人，同时使用该人脸的人像所在区域作为主体；C、如果当前时间段的图像中没有检测到唇动的人脸，便使用通过音频分析得到的人脸与画面中所有的人脸进行人脸的相似度分析，然后将相似度最高的人脸作为说话人，使用该人脸的人像所在区域作为主体；S2.3、通过人声与人脸智能匹配方法分析得到视频每段的说话人主体目标框，再按比例对视频进行裁剪，再对多片段和原语音进行合成，最后对视频进行平滑即可输出最后的裁剪的短视频结果。

全文数据：

权利要求：

百度查询：西南交通大学一种融合人声特征与人脸特征的智能视频剪辑方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：有向图处理方法、装置、电子设备、存储介质及程序产品

下一篇：基于磷光体的时间饱和的颜色可调的pcLED

相关技术

有向图处理方法、装置、电子设备、存储介质及程序产品

基于磷光体的时间饱和的颜色可调的pcLED

一种基感应加热及淬火的三维自由成形设备及方法

一种多级循环递进式抽奖系统

螺纹钢及其轧制方法、螺纹钢钢液的制备方法

一种数据加载方法、装置、电子设备及存储介质

一种碳纤维纺丝前驱体及碳纤维的生产方法

基于大数据的深度神经网络构建音频数据搜索方法及系统

重油加氢装置平稳运行控制参数的确定方法及装置

一种全固废水下不分散混凝土及其制备方法

一种荧光硅点、荧光硅点制备方法、pH检测方法及生物传感器

一种高效快照压缩视频字幕生成方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种融合人声特征与人脸特征的智能视频剪辑方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务