首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】相位敏感的门控多尺度空洞卷积网络语音增强方法与系统_深圳信息职业技术学院_202011332442.8 

申请/专利权人:深圳信息职业技术学院

申请日:2020-11-24

公开(公告)日:2024-06-11

公开(公告)号:CN112309411B

主分类号:G10L21/02

分类号:G10L21/02;G10L25/30

优先权:

专利状态码:有效-授权

法律状态:2024.06.11#授权;2021.02.23#实质审查的生效;2021.02.02#公开

摘要:本发明提供了一种相位敏感的门控多尺度空洞卷积网络语音增强方法,利用神经网络模型构建语音信号复数频谱之间的映射关系,将经过时频分析处理后的带噪语音实虚部频谱进行映射,获得增强后的实虚部频谱,并恢复成增强的时域语音信号。本发明还提供了一种相位敏感的门控多尺度空洞卷积网络语音增强系统。本发明的有益效果是:提高了语音增强的效果,保证了增强语音具备良好的语音可懂度,较好的避免了语音失真问题。

主权项:1.一种相位敏感的门控多尺度空洞卷积网络语音增强方法,其特征在于:利用神经网络模型构建语音信号复数频谱之间的映射关系,将经过时频分析处理后的带噪语音实虚部频谱进行映射,获得增强后的实虚部频谱,并恢复成增强的时域语音信号,首先,将带噪语音信号进行分帧加窗处理,然后进行短时傅里叶变换,得到带噪语音信号的复数谱,分离实虚部,并只取有效值部分,便得到了两组输入特征:实部特征和虚部特征,随后将两组输入特征送入门控多尺度空洞卷积网络模型,所述门控多尺度空洞卷积网络模型的处理流程包括:首先,由门控编码模块进行门控编码操作,来获取高纬度非线性的特征表示形式,紧接着利用多尺度特征分析模块分别对编码的实部特征和虚部特征表示进行时序特征分析,并由门控解码模块分别进行门控解码操作,得到增强后的实虚部频谱,所述多尺度特征分析模块的输入包括两组特征:(1)原始的带噪语音的实或虚部谱;(2)所述门控编码模块输出的实或虚部特征,所述多尺度特征分析模块由至少两个多尺度分析单元堆叠而成,每个多尺度分析单元将两组特征张量进行拼接操作,拼接之前需要对两组张量进行重塑操作,使其变成一个三维的张量,形状为[句子数,句子长度,322],接下来,将拼接的特征张量进行子带分解,这里一共分成8个子带,前7个子带的张量形状为[句子数,句子长度,40],最后一个子带的形状为[句子数,句子长度,42],将当前子带的输入和其邻近的子带卷积输出相拼接,然后再进行一维的空洞卷积操作,在每个子带卷积之后,采用指数线性激活,经过多个多尺度分析单元之后,利用一层1024维的全连接层对多尺度分析后的特征进行拓展,并将输出的特征张量再重塑成4维的张量形式[句子数,句子长度,4,256],紧接着,将两组重塑后的特征张量分别送进门控解码模块进行解码操作。

全文数据:

权利要求:

百度查询: 深圳信息职业技术学院 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。