首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于语谱图纹理特征的音频场景识别方法_嘉兴学院_202010091722.8 

申请/专利权人:嘉兴学院

申请日:2020-01-22

公开(公告)日:2024-06-21

公开(公告)号:CN111276158B

主分类号:G10L25/03

分类号:G10L25/03;G10L25/51

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2023.01.06#实质审查的生效;2020.06.12#公开

摘要:本发明涉及一种基于语谱图纹理特征的音频场景识别方法;本发明的具体步骤是:步骤1、将输入音频集随机划分成训练音频和测试音频;步骤2、将输入训练音频和测试音频提取出语谱图;步骤3、采用二维Gabor滤波器对训练音频和测试音频的语谱图进行变换;步骤4、对变换的语谱图求取不同像素距离和不同方向的灰度共生矩阵;步骤5、对四个方向的灰度共生矩阵计算二阶矩、熵、对比度和均匀度并组合成特征向量;步骤6、将训练音频提取特征向量合并音频场景类别输入到支持向量机进行训练,得到训练好的支持向量机;步骤7、将测试音频提取特征向量,送到训练好的支持向量机测试得到音频场景类别。

主权项:1.一种基于语谱图纹理特征的音频场景识别方法,其特征在于该方法的具体步骤是:步骤1:将输入音频集随机划分成训练音频和测试音频;步骤2:将输入训练音频和测试音频提取出语谱图,并进行规范化处理;步骤3:采用二维Gabor滤波器对训练音频和测试音频的语谱图进行变换,具体如下:建立L个二维Gabor滤波器,二维Gabor滤波器有M个尺度和N个方向;因此有L=M×N;若输入音频语谱图为Dx,y,x=1,2,...,W,y=1,2,...,H;其中W和H分别为语谱图的宽度和高度;经过二维Gabor滤波后,得到Gabor系数为Gm,n,i,j,其中m为Gabor系数的尺度索引;n为Gabor系数的方向索引;0≤m≤M-1,0≤n≤N-1;L个二维Gabor滤波器的设计步骤如下:对于二维离散Gabor滤波器,有如下公式: x′=xcosθn+ysinθny′=ycosθn-xsinθnθn=2πnN,其中n=0,1,...,N-1,fm=a-mfmax,其中fmax为最高频率,m=0,1,...,M-1;构造L=M×N个Gabor滤波器后,将输入音频频谱图经过L个Gabor滤波器进行滤波,得到Gabor系数Gm,n,x,y,计算公式如下:Gm,n,x,y=Dx,y*fx,y,fm,θn其中,Dx,y为输入音频语谱图,fx,y,fm,θn为第m个尺度和第n个方向的Gabor滤波器,符号*为卷积操作,Gx,y,m,n为音频语谱图经Gabor滤波后得到的Gabor滤波结果;步骤4:求取Gabor滤波结果Gm,n,x,y的幅度,采用公式如下: 其中,Am,n,x,y为Gabor滤波结果幅度;REGm,n,x,y为Gabor滤波结果Gx,y,m,n的实部;IMGm,n,x,y为Gabor滤波结果Gx,y,m,n的虚部;步骤5:对音频频谱图的不同尺度的Gabor滤波结果幅度Am,n,x,y求取像素距离d=1,方向为θ=0°,θ=45°,θ=90°和θ=135°四个方向的灰度共生矩阵,具体是:将Gabor滤波结果幅度Am,n,x,y的取值归一化到[0,255]范围,同时计算方向为θ=0°,θ=45°,θ=90°和θ=135°四个方向的灰度共生矩阵,记为CM0p,q、CM45p,q、CM90p,q和CM135p,q,其中0≤p≤255,0≤q≤255;步骤6:计算得到四个方向灰度共生矩阵的归一化矩阵,具体计算公式如下: 步骤7:对四个方向的灰度共生矩阵计算二阶矩、熵、对比度和均匀度,计算方法如下:二阶矩计算公式为: 其中θ=0°,45°,90°,135°;熵计算公式为: 其中θ=0°,45°,90°,135°;对比度计算公式为: 其中θ=0°,45°,90°,135°;均匀度计算公式为: 其中θ=0°,45°,90°,135°;步骤8:将四个方向的二阶矩,熵,对比度和均匀度组合成特征向量,公式如下:F={WM0,WM45,WM90,WM135,WE0,WE45,WE90,WE135,WC0,WC45,WC90,WC135,WH0,WH45,WH90,WH135}步骤9:将特征向量F合并音频场景类别送到支持向量机中进行训练,得到训练后的支持向量机;步骤10:将测试音频同样按步骤1到步骤8提取出特征向量F,送到训练后的支持向量机中进行测试,得到音频场景分类结果。

全文数据:

权利要求:

百度查询: 嘉兴学院 一种基于语谱图纹理特征的音频场景识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。