首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于多阶局部和全局融合网络的声音事件定位与检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:陕西师范大学

摘要:一种基于多阶局部和全局融合网络的声音事件定位与检测方法,由数据集预处理、特征提取、构建多阶局部和全局融合网络、训练多阶局部和全局融合网络、测试多阶局部和全局融合网络、定位和检测声音事件步骤组成。本发明采用了多阶局部和全局融合网络,提取空间多阶特征信息的同时,使用局部卷积块提取局部特征信息,使用全局Transformer块捕获上下文特征信息,并根据局部特征和上下文特征的重要性进行自适应地融合,增强了特征的多样性,提高了特征的表达能力,克服了卷积循环神经网络提取特征不充分的问题。本发明具有识别准确率高、定位误差小、提取特征信息完整等优点,可用于声音事件定位与检测。

主权项:1.一种基于多阶局部和全局融合网络的声音事件定位与检测方法,其特征由下述步骤组成:1数据集预处理从STARSS2022数据集和synth-set数据集中提取声音信号,包含女性说话声1、男性说话声2、鼓掌声3、电话声4、笑声5、室内声音6、脚步声7、开关门声8、音乐声9、乐器声10、水声11、钟声12、敲打声13共13种声音事件类别,构成声音信号数据集,将声音信号数据集按照4:1的比例分为训练集和测试集;2提取特征采用短时傅里叶变换的方法从声音信号数据集中提取对数梅尔频谱特征和声强矢量特征;3构建多阶局部和全局融合网络多阶局部和全局融合网络由动态多阶交互块与局部全局融合块、双向门控循环单元、第一全连接层依次串联构成;所述的动态多阶交互块由动态多阶交互卷积块与第一多维自适应归一化层、第一修正线性单元依次串联构成;第一多维自适应归一化层的构建方法如下: 其中,MDAN表示第一多维自适应归一化层,x1表示第一多维自适应归一化层的输入,z1、z2表示缩放参数,z1、z2是正整数,z表示数值稳定性参数,z取值为1×10-3,g表示通道维度上的数据个数,g的大小为B×Q×Y,h表示批处理维度上数据的个数,h的大小为A×Q×Y,B为批处理大小,A为通道数,Q为时间维度大小,Y为频率维度大小,ui表示通道维度上的第i个值,vi表示批处理维度上的第i个值,μA表示通道维度上的平均值,μB表示批处理维度上的平均值,β表示平移参数,β是正整数;所述的动态多阶交互卷积块由第一动态卷积层与多阶交互层、第二动态卷积层、第二修正线性单元依次串联构成;所述的多阶交互层由第三动态卷积层、第四动态卷积层、第五动态卷积层并联构成;第三动态卷积层的构建方法、第四动态卷积层的构建方法、第五动态卷积层的构建方法与第一动态卷积层的构建方法相同;所述的局部全局融合块由局部卷积块、全局Transformer块、上下文引导自适应融合块构成,局部卷积块和全局Transformer块的输出端与上下文引导自适应融合块的输入端相连;4训练多阶局部和全局融合网络1确定目标函数目标函数包括均方误差损失函数LMSE、辅助复制置换不变性训练损失函数LADPIT、评价函数ER20°、评价函数F20°、评价函数LECD、评价函数LRCD;按下式确定均方误差损失函数LMSE: 其中,n表示声音样本的总数量,n为有限正整数,Vi表示第i个声音样本对应的实际值,V′i表示第i个声音样本对应的预测值;按下式确定辅助复制置换不变性训练损失函数LADPIT: 其中,C表示类别的数量,F表示帧的数量,R表示轨道的数量,C、F、R分别为有限正整数,Pp,rcf表示排列p的活动耦合笛卡尔到达方向的目标,P′rcf表示在轨道r、类别c和帧f处的活动耦合笛卡尔到达方向的预测;按下式确定评价函数ER20°: 其中,S表示检测到但预测错误的声音事件类别的数量,D表示剩余的假阴性的数量,I表示剩余的假阳性的数量,S、D、I∈[0,N],N表示活动的声音事件类别的总数,N为有限正整数;按下式确定评价函数F20°: 其中,C表示声音类别的总数,C为有限正整数,TPc表示类别c在空间阈值为20°时的真阳性,FPc表示类别c的假阳性,FNc表示类别c的假阴性;按下式确定评价函数LECD: 其中,K表示预测值的数量,K为有限正整数,θk表示第k个预测与实际之间的角误差;按下式确定评价函数LRCD: 2训练多阶局部和全局融合网络将对数梅尔频谱特征和声强矢量特征输入到多阶局部和全局融合网络中进行训练,在训练过程中,多阶局部和全局融合网络的衰减率为0.05,学习率为0.001,优化器采用Adam优化器,迭代至损失函数收敛;5测试多阶局部和全局融合网络将从测试集中提取的对数梅尔频谱特征和声强矢量特征输入到训练后的多阶局部和全局融合网络中进行测试;6定位和检测声音事件多阶局部和全局融合网络采用多活动耦合笛卡尔到达方向格式的输出,输出中的声音事件类别由三个回归器表示,分别用来估计声音事件相对于麦克风的x,y,z坐标,如果x,y,z坐标表示的向量长度≥0.5,则检测到该声音事件类别存在,输出序号为1、2、3、4、5、6、7、8、9、10、11、12、13,根据序号确定声音事件的类别:女性说话声、男性说话声、鼓掌声、电话声、笑声、室内声音、脚步声、开关门声、音乐声、乐器声、水声、钟声、敲打声,相应的x,y,z坐标,为预测的定位方向;如果x,y,z坐标的向量长度0.5,表示该声音事件不存在。

全文数据:

权利要求:

百度查询: 陕西师范大学 基于多阶局部和全局融合网络的声音事件定位与检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。