一种视频中人声和背景声音分离的方法与系统

导航：龙图腾网> 最新专利技术> 一种视频中人声和背景声音分离的方法与系统

申请/专利权人：苏州小同科技有限公司

申请日：2024-04-15

公开（公告）日：2024-06-07

公开（公告）号：CN118155653A

主分类号：G10L25/18

分类号：G10L25/18;G10L25/30;G10L21/028;G10L21/007

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.06.25#实质审查的生效;2024.06.07#公开

摘要：本发明公开了一种视频中人声和背景声音分离的方法与系统，包括以下步骤：步骤一、音频特征提取：从视频文件中提取音频轨道，并对其进行短时傅里叶变换，以获取音频的频谱；步骤二、人声分离：利用经过训练的旋转位置编码的注意力网络，得到分离的人声和背景声音的频谱，再对两者进行短时傅里叶逆变换得到分离的人声和背景声音；步骤三、混合重构：将分离出的人声和背景声音重新合成为两个独立的音频轨道，并与原视频进行融合；本发明提供了一种有效的视频中人声和背景声音分离的方法与系统，通过利用旋转位置编码的注意力网络实现了对音频的高效处理，为视频后期处理带来了新的可能性。

主权项：1.一种视频中人声和背景声音分离的方法，其特征在于，包括以下步骤：步骤一、音频特征提取：从视频文件中提取音频轨道，并对其进行短时傅里叶变换，以获取音频的频谱；步骤二、人声分离：利用经过训练的旋转位置编码的注意力网络，得到分离的人声和背景声音的频谱，再对两者进行短时傅里叶逆变换得到分离的人声和背景声音；步骤三、混合重构：将分离出的人声和背景声音重新合成为两个独立的音频轨道，并与原视频进行融合。

全文数据：

权利要求：

百度查询：苏州小同科技有限公司一种视频中人声和背景声音分离的方法与系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种巡检方便的电容补偿柜

下一篇：一种房建施工用安全防坠装置

相关技术

一种巡检方便的电容补偿柜

一种房建施工用安全防坠装置

气动搬运平台

混料搅拌装置

一种叠加机

一种泡菜水检测用的取样装置

一种单双缸风冷柴油机发电机组吸排汇流冷却风道

一种用于无级变速器的传动带金属环结构

电池包充电器

一种砻谷机风选取粮器

一种纸面石膏板加工用除尘装置

一种带固定结构的冲压装置

声音相关技术

声音信号处理方法及移动装置_宏碁股份有限公司_202211693374.7

一种异常声音检测方法及系统_济南信通达电气科技有限公司_202211686264.8

一种户外声音检测器_青岛智享工业科技有限公司_202322467172.7

一种风机机舱设备异常声音检测方法及装置_南京安广电力设备有限公司_202210027888.2

具有声学衰减特性组合的用于航天器的声音衰减面板_空中客车运营简化股份公司_201910284169.7

一种基于GIS运行声音的异常检测方法、装置及介质_国网山东省电力公司潍坊供电公司_202410431417.7

利用深度学习和有限数据进行多阵列声音应用的特征处理_国际商业机器公司_202010783855.1

声音信号处理装置、及其系统、及其方法以及记录介质_夏研科技(山东)有限公司_202211677248.2

用于产生低音频率声音的偶极扬声器_PSS比利时股份有限公司_202080038421.7

声音方向检测传感器以及包括其的电子装置_三星电子株式会社_201910148453.1

背景相关技术

一种拍摄用背景布收放卷装置_武汉凤尾竹科技有限公司_202323347116.6

取决于背景水平的动态音量水平_谷歌有限责任公司_201980044468.1

基于投影点密度的隧道背景点云的自适应滤除方法_重庆大学_202410355444.0

声阵列语音信号与背景杂音的分离方法、系统及存储介质_常州工学院_202410449206.6

基于前景背景多级划分与特征融合的细粒度图像分类方法_华中农业大学_202410549161.X

基于记忆自编码器的无监督背景重建缺陷检测方法及系统_滨州魏桥国科高等技术研究院_202410520495.4

一种基于电机主阶次背景噪声的动态目标制定方法_拾音汽车科技(上海)有限公司_202410383423.X

一种通过测距消除背景散射光的粉尘浓度检测装置及方法_上海北分科技股份有限公司_202311730697.3

一种可猝灭血液背景荧光的染料、硫化氢探针及其制备方法和应用_湖南师范大学_202310418265.2

低光谱背景的拉曼光纤微型探头_中国工程物理研究院材料研究所_201810621060.3

人声相关技术

一种基于深度学习的多声部音乐人声主旋律提取方法_厦门大学_202210271946.6

人声检测方法、装置及电子设备和计算机可读存储介质_腾讯音乐娱乐科技(深圳)有限公司_202110138481.2

一种音乐信号的人声消除方法、设备及介质_腾讯音乐娱乐科技(深圳)有限公司_202110649872.0

一种人声带白斑永生化上皮细胞及其培养方法和应用_浙江大学医学院附属第一医院(浙江省第一医院)_202410400512.0

一种人声检测方法及语音特征提取电路_澳门大学_202410173958.4

一种视频中人声和背景声音分离的方法与系统_苏州小同科技有限公司_202410444128.0

耳机系统、个人声学设备以及用于检测反馈不稳定性的方法_伯斯有限公司_201980042686.1

挖掘机人声交互系统、人声信号输出方法及挖掘机_三一重机有限公司_202410189072.9

一种人声音频识别模型训练方法、音频分类方法和系统_北京猿力未来科技有限公司_202011436155.1

一种无人声纳载荷双冗余电源控制系统及其工作方法_中国船舶集团有限公司第七一五研究所_202410122120.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种视频中人声和背景声音分离的方法与系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务