基于多阶局部和全局融合网络的声音事件定位与检测方法

导航：龙图腾网> 最新专利技术> 基于多阶局部和全局融合网络的声音事件定位与检测方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：陕西师范大学

摘要：一种基于多阶局部和全局融合网络的声音事件定位与检测方法，由数据集预处理、特征提取、构建多阶局部和全局融合网络、训练多阶局部和全局融合网络、测试多阶局部和全局融合网络、定位和检测声音事件步骤组成。本发明采用了多阶局部和全局融合网络，提取空间多阶特征信息的同时，使用局部卷积块提取局部特征信息，使用全局Transformer块捕获上下文特征信息，并根据局部特征和上下文特征的重要性进行自适应地融合，增强了特征的多样性，提高了特征的表达能力，克服了卷积循环神经网络提取特征不充分的问题。本发明具有识别准确率高、定位误差小、提取特征信息完整等优点，可用于声音事件定位与检测。

主权项：1.一种基于多阶局部和全局融合网络的声音事件定位与检测方法，其特征由下述步骤组成：1数据集预处理从STARSS2022数据集和synth-set数据集中提取声音信号，包含女性说话声1、男性说话声2、鼓掌声3、电话声4、笑声5、室内声音6、脚步声7、开关门声8、音乐声9、乐器声10、水声11、钟声12、敲打声13共13种声音事件类别，构成声音信号数据集，将声音信号数据集按照4：1的比例分为训练集和测试集；2提取特征采用短时傅里叶变换的方法从声音信号数据集中提取对数梅尔频谱特征和声强矢量特征；3构建多阶局部和全局融合网络多阶局部和全局融合网络由动态多阶交互块与局部全局融合块、双向门控循环单元、第一全连接层依次串联构成；所述的动态多阶交互块由动态多阶交互卷积块与第一多维自适应归一化层、第一修正线性单元依次串联构成；第一多维自适应归一化层的构建方法如下：其中，MDAN表示第一多维自适应归一化层，x1表示第一多维自适应归一化层的输入，z1、z2表示缩放参数，z1、z2是正整数，z表示数值稳定性参数，z取值为1×10-3，g表示通道维度上的数据个数，g的大小为B×Q×Y，h表示批处理维度上数据的个数，h的大小为A×Q×Y，B为批处理大小，A为通道数，Q为时间维度大小，Y为频率维度大小，ui表示通道维度上的第i个值，vi表示批处理维度上的第i个值，μA表示通道维度上的平均值，μB表示批处理维度上的平均值，β表示平移参数，β是正整数；所述的动态多阶交互卷积块由第一动态卷积层与多阶交互层、第二动态卷积层、第二修正线性单元依次串联构成；所述的多阶交互层由第三动态卷积层、第四动态卷积层、第五动态卷积层并联构成；第三动态卷积层的构建方法、第四动态卷积层的构建方法、第五动态卷积层的构建方法与第一动态卷积层的构建方法相同；所述的局部全局融合块由局部卷积块、全局Transformer块、上下文引导自适应融合块构成，局部卷积块和全局Transformer块的输出端与上下文引导自适应融合块的输入端相连；4训练多阶局部和全局融合网络1确定目标函数目标函数包括均方误差损失函数LMSE、辅助复制置换不变性训练损失函数LADPIT、评价函数ER20°、评价函数F20°、评价函数LECD、评价函数LRCD；按下式确定均方误差损失函数LMSE：其中，n表示声音样本的总数量，n为有限正整数，Vi表示第i个声音样本对应的实际值，V′i表示第i个声音样本对应的预测值；按下式确定辅助复制置换不变性训练损失函数LADPIT：其中，C表示类别的数量，F表示帧的数量，R表示轨道的数量，C、F、R分别为有限正整数，Pp,rcf表示排列p的活动耦合笛卡尔到达方向的目标，P′rcf表示在轨道r、类别c和帧f处的活动耦合笛卡尔到达方向的预测；按下式确定评价函数ER20°：其中，S表示检测到但预测错误的声音事件类别的数量，D表示剩余的假阴性的数量，I表示剩余的假阳性的数量，S、D、I∈[0,N]，N表示活动的声音事件类别的总数，N为有限正整数；按下式确定评价函数F20°：其中，C表示声音类别的总数，C为有限正整数，TPc表示类别c在空间阈值为20°时的真阳性，FPc表示类别c的假阳性，FNc表示类别c的假阴性；按下式确定评价函数LECD：其中，K表示预测值的数量，K为有限正整数，θk表示第k个预测与实际之间的角误差；按下式确定评价函数LRCD： 2训练多阶局部和全局融合网络将对数梅尔频谱特征和声强矢量特征输入到多阶局部和全局融合网络中进行训练，在训练过程中，多阶局部和全局融合网络的衰减率为0.05，学习率为0.001，优化器采用Adam优化器，迭代至损失函数收敛；5测试多阶局部和全局融合网络将从测试集中提取的对数梅尔频谱特征和声强矢量特征输入到训练后的多阶局部和全局融合网络中进行测试；6定位和检测声音事件多阶局部和全局融合网络采用多活动耦合笛卡尔到达方向格式的输出，输出中的声音事件类别由三个回归器表示，分别用来估计声音事件相对于麦克风的x，y，z坐标，如果x，y，z坐标表示的向量长度≥0.5，则检测到该声音事件类别存在，输出序号为1、2、3、4、5、6、7、8、9、10、11、12、13，根据序号确定声音事件的类别：女性说话声、男性说话声、鼓掌声、电话声、笑声、室内声音、脚步声、开关门声、音乐声、乐器声、水声、钟声、敲打声，相应的x，y，z坐标，为预测的定位方向；如果x，y，z坐标的向量长度0.5，表示该声音事件不存在。

全文数据：

权利要求：

百度查询：陕西师范大学基于多阶局部和全局融合网络的声音事件定位与检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：用于遥控感应窗的半透明紫材料及其制备方法及应用

下一篇：一种基于非正交多址技术的近远场鲁棒安全通感融合方法

相关技术

用于遥控感应窗的半透明紫材料及其制备方法及应用

一种基于非正交多址技术的近远场鲁棒安全通感融合方法

背光模组及显示装置

一种缺陷管道非开挖修复的清淤装置及其施工方法

一种红松生长影响因素获取系统

一种火电厂加热水处理用化验取样装置

局域共振型声子晶体原胞

一种头戴式呼吸机

一种除湿机热源自动切换控制方法及装置

一种公路深层病害双组分高聚物抽拔注浆加固装置及方法

一种环境空气甲烷、非甲烷总烃直接测量装置和分析方法

一种3D打印仰卧式腰臀穴位点治疗系统及数据采集方法

网络相关技术

图神经网络的加速方法以及图神经网络加速结构_苏州元脑智能科技有限公司_202410693570.7

移动网络中基于网络切片的安全性_帕洛阿尔托网络公司_201980070161.9

无源光网络系统的时间敏感网络实现方法、设备和介质_中兴通讯股份有限公司_202310357696.2

光网络检测方法、光收发组件、光网络设备_中兴通讯股份有限公司_202210849524.2

基于双网络交替的网络负载配置方法、装置、设备和介质_中国人民解放军国防科技大学_202411024543.7

神经网络处理方法、神经网络及自然语言处理方法_武汉星纪魅族科技有限公司_202410843469.5

经由计算机网络分发统一图像的网络和速度增强_电子湾有限公司_202110259865.X

网络信息开放方法及相关设备_腾讯科技(深圳)有限公司_202110902447.8

一种网络监控设备_中国联合网络通信集团有限公司_202323406589.9

计算机网络机柜_孙艳_202323497225.6

声音相关技术

声音混合方法、装置、设备及存储介质_东风汽车有限公司东风日产乘用车公司_202410829680.1

一种利用声音特征编码诊断变压器故障的方法及系统_湖南科技大学_202111675403.2

一种可多向声音捕捉的麦克风_深圳华钜芯半导体有限公司_202323661390.0

车辆声音自定义控制和输出方法、装置、电子设备及介质_广汽本田汽车有限公司_202410714311.8

一种具有声音定向传播特性的音箱_中国人民解放军空军预警学院_202310303300.6

一种车载音响系统及其实现自定义声音的方法_广州汽车集团股份有限公司_202110199370.2

一种声音可视化无线助听适配器_深圳市八达晟电子有限公司_202420154104.7

基于多阶局部和全局融合网络的声音事件定位与检测方法_陕西师范大学_202410747471.2

一种应用于电力物联网的声音故障检测方法_中楹青创科技有限公司_202411172682.4

提供声音反馈的小瓶适配器和包括小瓶适配器的用于医疗注射装置的连接器组件_贝克顿迪金森法国公司_202380017670.1

事件相关技术

飞行时间光事件检测电路和飞行时间光事件检测方法_索尼半导体解决方案公司_202380020835.0

事件通知方法、装置、存储介质以及终端_深圳市三六零智慧生活科技有限公司_202410695727.X

基于事件度量函数的模态融合方法_中国科学院长春光学精密机械与物理研究所_202411174418.4

触发事件信息处理方法与装置_海马云(天津)信息技术有限公司_202410546400.6

事件上报方法、安全管理电路及管理系统_信骅科技股份有限公司_202311017130.1

基于事件触发的降低FPGA功耗的装置_北京国科天迅科技股份有限公司_202311542098.9

基于Kubernetes集群的事件监测方法及装置、计算机程序产品_济南浪潮数据技术有限公司_202410694892.3

基于RGB-事件的自适应删插帧的高效视觉跟踪方法_安徽大学_202410704578.9

文本事件自动地图标绘优化方法及系统_中国人民解放军战略支援部队信息工程大学_202410797853.6

一种事件传感器的双模式控制方法及相关装置_深圳锐视智芯科技有限公司_202310326089.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于多阶局部和全局融合网络的声音事件定位与检测方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务