首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统_贵州大学_202410125389.6 

申请/专利权人:贵州大学

申请日:2024-01-30

公开(公告)日:2024-04-09

公开(公告)号:CN117854546A

主分类号:G10L25/51

分类号:G10L25/51;G10L25/18;G10L25/24;G10L19/02;G10L19/022

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.26#实质审查的生效;2024.04.09#公开

摘要:本发明公开了一种基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统,方法包括采集咳嗽音频数据,并进行音频的降噪处理;对长时音频进行咳嗽事件检测并去除静音段,分割出包含咳嗽事件的短时音频信号;对统一处理的短时音频信号进行自适应尺度音频特征提取,生成所述音频的多通道梅尔频谱数据,得到音频的梅尔图谱特征矩阵集合K;搭建基于通道注意力的卷积神经网络模型,提取三通道梅尔频谱图的特征;将音频的梅尔图谱特征矩阵集合K作为三通道梅尔频谱图的特征模型Mweight的输入,生成声音分类结果。本发明具有成本低、精度高、快速识别咳嗽声音的特点。

主权项:1.一种基于通道注意力和多尺度梅尔频谱图的声音分类方法,其特征在于:该方法包括如下步骤:步骤1:数据采集:采集咳嗽音频数据,并进行音频的降噪处理;步骤2:咳嗽事件检测:对长时音频进行咳嗽事件检测并去除静音段,分割出包含咳嗽事件的短时音频信号;对短时音频信号进行统一处理;步骤3:自适应尺度音频特征提取:对统一处理的短时音频信号进行自适应尺度音频特征提取,生成所述音频的多通道梅尔频谱数据;所述自适应尺度音频特征提取的具体步骤为:步骤3.1:将缩放尺度作为自适应参数引入所述音频分帧方法,对帧长和帧移进行自动生成,生成方式如下:ws=γi*0.025hl=ws2其中,ws为帧长,hl为帧移,i为通道值,γ为尺度变量;在通道1中,按照所述的生成方式计算帧长和帧移,并根据当前帧长和帧移进行分帧;帧长为每一帧音频的长度,帧移为相邻帧间不重叠的部分;每个帧使用汉明窗进行加窗操作,然后使用快速傅里叶变换生成音频的频谱图,经过上述操作后,咳嗽音频信号yn被转换为频域信号Xa,k,转化公式如下: 其中,a表示音频的第a帧,k表示频域中的第k条谱线,N为咳嗽信息的采样点数,i为虚数单位;步骤3.2:将频谱图通过梅尔滤波器组,得到音频的梅尔频谱图A1j,其转换公式如下: 其中,m代表转换后的梅尔频率,f代表音频的原本频率;步骤3.3:根据所述通道1中的生成方式计算通道2和通道3的帧长和帧移,经过分帧、加窗和梅尔滤波器处理后,得到通道2和通道3的梅尔频谱图A2j和A3j;将A1j、A2j和A3j进行拼接,得到音频j的三通道梅尔频谱图Kj,不同尺度的梅尔频谱图确保三个通道具有不同的频率和时间信息;步骤3.4:重复步骤3.1、3.2、3.3,得到音频的梅尔图谱特征矩阵集合K,K={K1,K2,…,Kj};步骤4:采集咳嗽的声音音频数据;采集刷牙、大笑、打呼噜、打喷嚏和喝水的动作的声音音频数据;对所述的咳嗽的声音音频数据和动作的声音音频数据进行统一处理和标注,形成带标签的标准数据集CSC4;步骤5:搭建基于通道注意力的卷积神经网络模型,提取三通道梅尔频谱图的特征,具体步骤如下:步骤5.1:搭建卷积神经网络模型,该模型包含输入层、5个隐藏层、全连接层、Dropout层和输出层;隐藏层由卷积、归一化、激活函数和最大池化的操作构成,激活函数采用ReLU;卷积层输出按如下公式计算得到; 其中,为第j个神经元的输出;wli,j为第l层第i类中第j个神经元的权重;bli为第l层第i类的偏置;*为卷积操作;f·为模型的激活函数;步骤5.2:通道注意力模型SENet,其主要操作包括挤压sq、激励ex和点积scale,各操作计算方式如下: sc=Fexzc,W=σW2fW1zcXc=Fscaleuc,sc=sc·uc其中,zc表示经过全局平均池化后得到的第c个特征映射;sc表示输入特征层每个通道的权值;Xc表示经过SENet输出的特征矩阵;Fsq,Fex和Fscale分别代表SENet内部变换操作;c为通道数;H和W为特征图的高度和宽度;uc为输入特征经过卷积后的第c个特征图;为激活函数Sigmoid,W1和W2为全连接层的权值矩阵;将SENet插入卷积神经网络网络的第1个隐藏层,形成基于通道注意力的卷积神经网络模型;步骤5.3:采用五折交叉验证法将数据集CSC4平均分为5份,轮流合并其中4份作为训练集,剩下的1份作为测试集;将基于通道注意力的卷积神经网络模型在CSC4数据集上进行训练与验证,得到三通道梅尔频谱图的特征模型Mweight;为了训练模型,使用交叉熵作为损失函数,表达式为: 其中,L为损失值;w为权重;b为偏置值;d为样本总数;z为样本类别数;1{yr=c}为示性函数,当括号内值为真时输出为1,反之为0;pcr表示第r个样本预测为第c类的概率;ln为自然对数;步骤6:将所述音频的梅尔图谱特征矩阵集合K作为Mweight的输入,生成声音分类结果。

全文数据:

权利要求:

百度查询: 贵州大学 基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。