首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

融入自注意力机制的CRNN珍稀动物识别与定位方法 

申请/专利权人:安徽大学

申请日:2023-11-27

公开(公告)日:2023-12-26

公开(公告)号:CN117292693A

主分类号:G10L17/26

分类号:G10L17/26;G10L17/02;G10L17/04;G10L17/18;G10L25/24;G06N3/0464;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.02.09#授权;2024.01.12#实质审查的生效;2023.12.26#公开

摘要:本发明涉及动物识别技术领域,尤其涉及一种融入自注意力机制的CRNN珍稀动物识别与定位方法,通过将功率归一化倒谱系数和线性预测倒谱系数融合,得到混合特征,与传统的音频特征梅尔倒谱系数、伽马通频率倒谱系数相比,具有更好的鲁棒性、抗噪性,大大提高了在噪声及混响环境中的识别准确度,且不需要过多的计算,本发明通过残差网络来作为系统的识别和定位网络,可以避免梯度爆炸和梯度消失,同时可以训练更深的网络,通过融入自注意力机制层,弥补了卷积不能处理序列数据时捕捉长程依赖关系的缺点,提高网络的识别和定位精度。

主权项:1.一种融入自注意力机制的CRNN珍稀动物识别与定位方法,其特征在于,所述方法包括:步骤S1、建立模型训练需要的音频数据集;步骤S2、建立同样结构的珍稀动物识别网络和定位网络,均包括2层卷积层、残差网络、自注意力机制层、全连接层和KNN分类器;步骤S3、提取音频数据集的功率归一化倒谱系数和线性预测倒谱系数,处理得到混合特征;步骤S4、将混合特征输入所述珍稀动物识别网络,输出是否存在珍惜动物的分类结果;步骤S5、对珍稀动物识别进行反复训练至收敛,得到训练后的珍稀动物识别网络;步骤S6、从音频数据集中提取出幅值和相位,将幅值和相位作为定位网络的训练特征,对定位网络反复训练至收敛,得到训练后的定位网络;步骤S7、从待识别的音频中提取功率归一化倒谱系数和线性预测倒谱系数,处理得到混合特征,将混合特征输入训练后的珍惜动物识别网络,得到分类结果,判断是否有珍惜动物的声音,如果有,则对音频提取幅值和相位,将幅值和相位作为定位的特征,输入定位网络,输出珍稀动物发出声音位置的方向角;其中提取功率归一化倒谱系数的步骤包括:将音频数据通过一个高通滤波器进行预加重,预加重的公式为 ;式中表示预加重滤波器的预加重系数,表示输入信号的第n个采样点,表示输入信号的第n-1个样本点,表示输出信号的第n个样本点;对音频数据进行分帧,得到每帧为20-40ms的短时平稳音频信号;将分帧后的音频信号乘以Hamming窗函数进行加窗;对加窗后的音频信号进行短时傅里叶变换,转换为频域上的能量分布,短时傅里叶变换的公式为 ;其中N是每个窗口里的采样点数,j是虚数单位,表示为第i帧的音频信号,n为音频信号的采样点的索引,k表示频率域的离散频率点索引,K代表频谱的分辨率;将音频信号的频谱取模平方,得到语音信号的谱线能量,公式为 ; 为第i帧的信号,是将进行短时傅里叶变换,N是STFT的点数;将得到的谱线能量输入到Gammatone滤波器组中;将通过Gammatone滤波器组处理后的信号进行对数运算和离散余弦变换,得到功率归一化倒谱系数,离散余弦变换的公式为 ;其中L表示功率归一化倒谱系数的系数阶数,M表示三角滤波器个数,为需要倒谱的信号,m表示信号的离散样本点的下标。

全文数据:

权利要求:

百度查询: 安徽大学 融入自注意力机制的CRNN珍稀动物识别与定位方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。