首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于ad-hoc麦克风阵列的多通道语音去混响融合方法_西北工业大学深圳研究院;西北工业大学_202311328393.4 

申请/专利权人:西北工业大学深圳研究院;西北工业大学

申请日:2023-10-13

公开(公告)日:2024-01-05

公开(公告)号:CN117351980A

主分类号:G10L21/0208

分类号:G10L21/0208;G10L25/30

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.01.23#实质审查的生效;2024.01.05#公开

摘要:本发明公开了一种基于ad‑hoc麦克风阵列的多通道语音去混响融合方法,通过学习多通道输入特征之间的时频特征,有效地集成空间信息,使网络能够有选择地加权每个通道的重要性,从而提高多通道去混响的性能。通过自注意力机制或图注意机制来实现上述操作,并且可以在去混响网络的不同位置上灵活使用该模块。无论将该模块放置在去混响网络的哪个位置,本发明方法的去混响性能均得到了改善。

主权项:1.一种基于ad-hoc麦克风阵列的多通道语音去混响融合方法,其特征在于,包括如下步骤:步骤1:构建自注意力融合模块,用于进行通道间的信息融合;对于每个帧t,多通道输入为Df表示频率域中的维度数量,C表示通道数;查询Q、键K和值V子空间的维度为E,在第m个注意力头时,它们的计算方式如下: 其中查询、键和值的嵌入层分别由矩阵和表示,其中dk=EK,K表示注意力头的数量;第m个注意力头在通道c处的可训练的参数表示为其中*∈K,Q,V;第m个注意力头的输出计算如下: 其中所有注意力头的输出被加以连接: 其中是线性投影层的权重矩阵,输出为了防止梯度消失,设置了一个残差直接连接输入与输出;步骤2:构建图注意力融合模块;设输入为Zt,其中建立一个完整的图,被称为G,图中每个单独的节点由一个不同的行向量表示;对于第m个注意力头,通过可学习参数和将Zt投影到一个dm维度的空间中进行初始化: 将查询和键矩阵表示为和对于每个查询和键,它们的分数使用以下公式计算: 其中是一个可学习的向量;使用softmax函数来归一化所有相邻通道上的注意力分数;对于第m个头,通道c的聚合输出由表示: 其中Nc表示通道c的相邻通道;所有节点的聚合特征被连接起来: 得到聚合模块的输出如下: 步骤3:采用两阶段的训练方法,首先训练一个单通道语音去混响网络,训练完成得到网络参数;步骤4:将步骤3得到的网络参数用在多通道语音去混响网络中;步骤5:将多通道语音去混响网络中,将编码器和解码器之间的位置称为位置A,将监督注意力模块SAM与平局池化层之间的位置称为位置B;步骤6:将自注意力融合模块和图注意力融合模块分别放置在位置A或位置B,构成四种组合,从而形成四种改进的多通道语音去混响网络;步骤7:采用自组织麦克风阵列获取样本数据,对四种改进的多通道语音去混响网络分别进行训练,得到最终改进的多通道语音去混响网络,用于多通道语音去混响融合。

全文数据:

权利要求:

百度查询: 西北工业大学深圳研究院;西北工业大学 一种基于ad-hoc麦克风阵列的多通道语音去混响融合方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。