首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合人声特征与人脸特征的智能视频剪辑方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西南交通大学

摘要:本发明涉及视频剪辑技术领域,涉及一种融合人声特征与人脸特征的智能视频剪辑方法,包括:S1、场景镜头拆分,将输入的视频拆分成多个场景镜头片段,然后对每个场景镜头片段进行滑窗切片;S2、智能视频剪辑S2.1、对切片后的片段进行目标检测和显著性检测;S2.2、多主角类视频的判定:判定片段是否为多人物主角类,若是,则采用人声与人脸智能匹配方法;S2.3、通过人声与人脸智能匹配方法分析得到视频每段的说话人主体目标框,再通过按比例对视频进行裁剪,再对多片段和原语音进行合成,最后对视频进行平滑即可输出最后的裁剪的短视频结果。本发明能够应对多主角人物视频自动剪辑中的音画不匹配。

主权项:1.一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:包括以下步骤:S1、场景镜头拆分将输入的视频拆分成多个场景镜头片段,然后对每个场景镜头片段进行滑窗切片;S2、智能视频剪辑S2.1、对切片后的片段进行目标检测和显著性检测;S2.2、多主角类视频的判定:判定片段是否为多人物主角类,若是,则采用人声与人脸智能匹配方法;人声与人脸智能匹配方法为:1使用FFmpeg将片段的音频与图像进行分离;2对音频数据进行人声提取,提取出视频的主要人声;3对人声进行不同说话人聚类处理,将相同音色的人声聚为一类,从而统计出说话人的个数,及每个说话人的时间片段;4对每个说话人分别进行语音性别、年龄识别;5基于Speech2Face神经网络系统,通过人声来绘制面孔;6对图像数据进行处理:通过YOLO-v5对图像进行画面主体人物检测,然后通过RetinaNet人脸检测算法提取人脸与人脸识别;人脸进行识别与人脸特征分析,得到人脸的性别与年龄预测;7对视频人脸进行唇动检测,检测出视频中该片段内该人脸是否在唇动;8将音频得到的特征与图像的特征进行建模,得到音画匹配模型;音画匹配模型建模过程如下:A、挑选当前时间段的图像中所有人脸中唇动的人脸;B、使用唇动人脸图像分析出的性别、年龄,与音频当前的分析的性别、年龄相匹配,如果能直接匹配上,则直接将人脸作为说话人,同时使用该人脸的人像所在区域作为主体;C、如果当前时间段的图像中没有检测到唇动的人脸,便使用通过音频分析得到的人脸与画面中所有的人脸进行人脸的相似度分析,然后将相似度最高的人脸作为说话人,使用该人脸的人像所在区域作为主体;S2.3、通过人声与人脸智能匹配方法分析得到视频每段的说话人主体目标框,再按比例对视频进行裁剪,再对多片段和原语音进行合成,最后对视频进行平滑即可输出最后的裁剪的短视频结果。

全文数据:

权利要求:

百度查询: 西南交通大学 一种融合人声特征与人脸特征的智能视频剪辑方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。