【发明公布】基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统_贵州大学_202410125389.6

导航：龙图腾网> 最新专利技术> 基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统_贵州大学_202410125389.6

申请/专利权人：贵州大学

申请日：2024-01-30

公开（公告）日：2024-04-09

公开（公告）号：CN117854546A

主分类号：G10L25/51

分类号：G10L25/51;G10L25/18;G10L25/24;G10L19/02;G10L19/022

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.26#实质审查的生效;2024.04.09#公开

摘要：本发明公开了一种基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统，方法包括采集咳嗽音频数据，并进行音频的降噪处理；对长时音频进行咳嗽事件检测并去除静音段，分割出包含咳嗽事件的短时音频信号；对统一处理的短时音频信号进行自适应尺度音频特征提取，生成所述音频的多通道梅尔频谱数据，得到音频的梅尔图谱特征矩阵集合K；搭建基于通道注意力的卷积神经网络模型，提取三通道梅尔频谱图的特征；将音频的梅尔图谱特征矩阵集合K作为三通道梅尔频谱图的特征模型Mweight的输入，生成声音分类结果。本发明具有成本低、精度高、快速识别咳嗽声音的特点。

主权项：1.一种基于通道注意力和多尺度梅尔频谱图的声音分类方法，其特征在于：该方法包括如下步骤：步骤1：数据采集：采集咳嗽音频数据，并进行音频的降噪处理；步骤2：咳嗽事件检测：对长时音频进行咳嗽事件检测并去除静音段，分割出包含咳嗽事件的短时音频信号；对短时音频信号进行统一处理；步骤3：自适应尺度音频特征提取：对统一处理的短时音频信号进行自适应尺度音频特征提取，生成所述音频的多通道梅尔频谱数据；所述自适应尺度音频特征提取的具体步骤为：步骤3.1：将缩放尺度作为自适应参数引入所述音频分帧方法，对帧长和帧移进行自动生成，生成方式如下：ws＝γi*0.025hl＝ws2其中，ws为帧长，hl为帧移，i为通道值，γ为尺度变量；在通道1中，按照所述的生成方式计算帧长和帧移，并根据当前帧长和帧移进行分帧；帧长为每一帧音频的长度，帧移为相邻帧间不重叠的部分；每个帧使用汉明窗进行加窗操作，然后使用快速傅里叶变换生成音频的频谱图，经过上述操作后，咳嗽音频信号yn被转换为频域信号Xa,k，转化公式如下：其中，a表示音频的第a帧，k表示频域中的第k条谱线，N为咳嗽信息的采样点数，i为虚数单位；步骤3.2：将频谱图通过梅尔滤波器组，得到音频的梅尔频谱图A1j，其转换公式如下：其中，m代表转换后的梅尔频率，f代表音频的原本频率；步骤3.3：根据所述通道1中的生成方式计算通道2和通道3的帧长和帧移，经过分帧、加窗和梅尔滤波器处理后，得到通道2和通道3的梅尔频谱图A2j和A3j；将A1j、A2j和A3j进行拼接，得到音频j的三通道梅尔频谱图Kj，不同尺度的梅尔频谱图确保三个通道具有不同的频率和时间信息；步骤3.4：重复步骤3.1、3.2、3.3，得到音频的梅尔图谱特征矩阵集合K，K＝{K1,K2,…，Kj}；步骤4：采集咳嗽的声音音频数据；采集刷牙、大笑、打呼噜、打喷嚏和喝水的动作的声音音频数据；对所述的咳嗽的声音音频数据和动作的声音音频数据进行统一处理和标注，形成带标签的标准数据集CSC4；步骤5：搭建基于通道注意力的卷积神经网络模型，提取三通道梅尔频谱图的特征，具体步骤如下：步骤5.1：搭建卷积神经网络模型，该模型包含输入层、5个隐藏层、全连接层、Dropout层和输出层；隐藏层由卷积、归一化、激活函数和最大池化的操作构成，激活函数采用ReLU；卷积层输出按如下公式计算得到；其中，为第j个神经元的输出；wli,j为第l层第i类中第j个神经元的权重；bli为第l层第i类的偏置；*为卷积操作；f·为模型的激活函数；步骤5.2：通道注意力模型SENet，其主要操作包括挤压sq、激励ex和点积scale，各操作计算方式如下： sc＝Fexzc,W＝σW2fW1zcXc＝Fscaleuc,sc＝sc·uc其中，zc表示经过全局平均池化后得到的第c个特征映射；sc表示输入特征层每个通道的权值；Xc表示经过SENet输出的特征矩阵；Fsq，Fex和Fscale分别代表SENet内部变换操作；c为通道数；H和W为特征图的高度和宽度；uc为输入特征经过卷积后的第c个特征图；为激活函数Sigmoid，W1和W2为全连接层的权值矩阵；将SENet插入卷积神经网络网络的第1个隐藏层，形成基于通道注意力的卷积神经网络模型；步骤5.3：采用五折交叉验证法将数据集CSC4平均分为5份，轮流合并其中4份作为训练集，剩下的1份作为测试集；将基于通道注意力的卷积神经网络模型在CSC4数据集上进行训练与验证，得到三通道梅尔频谱图的特征模型Mweight；为了训练模型，使用交叉熵作为损失函数，表达式为：其中，L为损失值；w为权重；b为偏置值；d为样本总数；z为样本类别数；1{yr＝c}为示性函数，当括号内值为真时输出为1，反之为0；pcr表示第r个样本预测为第c类的概率；ln为自然对数；步骤6：将所述音频的梅尔图谱特征矩阵集合K作为Mweight的输入，生成声音分类结果。

全文数据：

权利要求：

百度查询：贵州大学基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种轻量非晶合金及其制备方法_东莞市逸昊金属材料科技有限公司_202211701845.4

下一篇：一种防治猪繁殖与呼吸道综合征的复方中药可溶性粉的制备方法和应用_广东海大集团股份有限公司_202211577992.5

相关技术

一种轻量非晶合金及其制备方法_东莞市逸昊金属材料科技有限公司_202211701845.4

一种防治猪繁殖与呼吸道综合征的复方中药可溶性粉的制备方法和应用_广东海大集团股份有限公司_202211577992.5

一种大型铜套离心铸造方法及铸造设备_扬州市雪龙铜制品有限公司_202210381652.9

一种针对空中目标的雷达可探测性评价方法_中国人民解放军63921部队_202210250664.8

外肢体机器人作业策略半物理仿真方法及系统_山东大学_202111470212.2

一种齿轮加工成型设备_兴化金马鹿机电科技有限公司_202410356685.7

一种汽车风窗玻璃试验中AB区的投射设备_中汽研汽车检验中心(武汉)有限公司_202410456408.3

一种镁合金阳极表面原位生成ZIF-8涂层的改性方法_桂林理工大学_202210904451.2

一种便于安装的制粒切刀系统_创志科技(江苏)股份有限公司_202211619873.1

一种柔性低密度烧蚀防热涂料及其制备方法_上海箬宇新材料有限公司_202310043235.8

烤烟烟叶面积的测量方法及系统_河南启迪睿视智能科技有限公司_202210505490.5

一种搅拌式反应釜_江苏中特特种金属装备有限公司_202410183133.0

频谱相关技术

一种通过式频谱分析装置_焱行科技(上海)有限公司_202410552365.9

非授权频谱中的感测波束确定_苹果公司_202280072255.1

一种频谱感知方法及装置_鹏城实验室_202211121400.9

一种边缘缓存辅助大规模认知无线电网络频谱共享方法_山东大学_202410321459.5

基于便携式井下电磁骚扰测量装备的频谱数据分析方法_煤炭科学技术研究院有限公司_202410339094.9

一种频谱仪测量动作元遍历方法及系统_煤炭科学技术研究院有限公司_202410339107.2

面向多无人机的任务规划与频谱资源联合优化方法及系统_中国人民解放军国防科技大学_202210839883.X

一种基于图卷积倒置Transformer的多频带频谱预测方法及系统_烟台大学_202410658449.0

一种基于并行结构深度神经网络的频谱感知方法_重庆大学_202410417837.X

一种基于电力载波OFDM系统的频谱泄露补偿方法及系统_北方电科(东营)数字技术发展有限公司_202410462443.6

图相关技术

基于强化学习和图摘要的图数据库查询成本估计方法_复旦大学_202410289952.3

基于子图的同步定位与建图方法及其系统和移动设备_浙江舜宇智能光学技术有限公司_202211638834.6

建图方法、装置、建图设备及三维打印设备_中国计量大学_202410378835.4

遮蔽角图和等射速度图制作方法、装置、存储介质及产品_福建省经纬数字科技有限公司_202410436901.9

图数据处理方法及装置_清华大学_202010978130.8

人像抠图过程中不透明度图的获取方法及装置_华中科技大学_202410250379.5

基于分布式图嵌入的联邦图聚类方法、装置及可读存储介质_中国银联股份有限公司_202210106101.1

LNG船围护系统安装平台零件布置图的快速出图方法_江苏科技大学_202210495993.9

作业调度展示图的生成方法和装置_中国建设银行股份有限公司_202410478257.1

配图方法、装置、电子设备及存储介质_书行科技(北京)有限公司_202311734030.0

声音相关技术

用于输出声音的设备_乐金显示有限公司_202311725590.X

基于声音处理的无砂混凝土集料粒径确定方法_安徽省交通规划设计研究总院股份有限公司_202410309185.8

一种煤矿用高灵敏光纤声音异常诊断装置及其方法_宁顺集团有限公司_202410355731.1

一种声音环境自适应的USB音频优化方法及系统_深圳市创达电子有限公司_202410637066.5

一种智能体声音输出处理方法、装置及设备_北京萌友智能科技有限公司_202410266737.1

连续调制声音信号生成方法、耳鸣匹配方法及存储介质_玖益(深圳)医疗科技有限公司_202410644093.5

输电线路异常声音识别方法、装置、系统、设备及介质_国网山西省电力公司晋城供电公司_202410367645.2

一种声音采集重建方法、装置及车载伴唱系统_深圳市万声文化科技有限公司_202410220082.4

耳机装置、头戴式耳机装置及声音播放装置_宝德科技股份有限公司_202010946135.2

应用声音强度和二氧化碳检测的呼吸状态验证系统_读取(北京)科技有限公司_202311523770.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统_贵州大学_202410125389.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务