首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种具有自动分类的海洋空间资源管理系统及其自动分类方法_浙江弄潮儿智慧科技有限公司_202011567868.1 

申请/专利权人:浙江弄潮儿智慧科技有限公司

申请日:2020-12-25

公开(公告)日:2024-06-07

公开(公告)号:CN112735443B

主分类号:G10L17/26

分类号:G10L17/26;G10L17/14;G10L17/02;G10L21/0208;G10L21/028;G10L25/18;G10L25/30;G10L25/45;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.06.07#授权;2021.05.21#实质审查的生效;2021.04.30#公开

摘要:本发明涉及一种具有自动分类的海洋空间资源管理系统及其自动分类方法,通过鸟类声纹人工智能识别系统、频谱‑时间空间界面、噪声监测和去除方法、自动分类方法、以及小波变换的多音节鸟类音频特征提取方法的技术手段,提高了对海洋空间资源等各类信息的汇集和整合能力,深化海洋空间资源信息的及时汇集和动态更新,尤其实现了对海洋空间内的鸟类资源的监控和保护,同时为海洋空间资源数据大中心的建立提供了数据支撑。

主权项:1.一种具有自动分类的海洋空间资源管理系统及其自动分类方法,包括业务层、数据层、展现层,业务层包括用户系统、业务系统、算法系统三大系统组成,用户系统主要用来管理平台用户操作行为及信息管理;业务系统用于管理整个平台模块之间的业务,包括如音频地址管理、鸟类声纹采集、鸟类音频识别信息等;算法系统通过人工智能声纹识别检测音频中的鸟类的类型并给出合理的检测反馈信息;数据层用于数据存储,分为数据中心、系统数据库、声纹数据库,数据中心用于存储各种业务数据,包括鸟类识别种类、数量、日期、位置等;系统数据库存储系统模块之间的业务关系数据,包括声纹、音频存放地址等;声纹数据库存储所有鸟类音频数据;展现层通过WEB端输出各功能模块之间交互返回的结果,开放API接口调用方法开发者可通过相关开放接口地址按照提供的调用规则进行调用;业务系统通过音频提取设备获取岛上的各种鸟类音频并提供频谱-时间空间界面进行录制、定位、分析、注解、分类,算法系统作为后台系统通过人工智能声纹识别实现相应的功能,人工智能声纹识别包括噪声去除、多音频分离、自动分类、单一识别;其中,业务系统实现了鸟类声纹采集,使用音频提取设备提取声源以及方向,音频提取设备包括麦克风阵列和数据处理设备,在数据处理设备上使用频谱-时间空间界面来编辑采集到的音频文件,能够观察声源在二维特征空间上的分布,了解录音中的声音种类,从而了解声音景观的组成部分,通过在空间上分组相似的声音来对其进行分类;用户在可视化的频谱-时间空间界面上对声源进行录制、定位、分析、注解、分类,用户可以在窗口左侧择要操作的文件或文件夹,在右侧更改操作设置或执行各项功能;在录制部分,用户使用麦克风阵列以16kHz和16位格式开始录制,并回放或分割录音,系统支持连接到数据处理设备的多个麦克风阵列同时录制,支持二维定位进行同步记录,通过设置文件的分区数或每个文件的记录时间,将一个记录文件分成若干个记录文件,以便在分析长期记录之前找到适合本地化的参数设置;在定位部分,基于多信号分类方法使用具有短时傅立叶变换的多个频谱图进行声源定位,并提取分离的声音作为每个本地化声音的波形文件,在右边的列表中设置与鸟类音频定位和分离相关的基本参数值,通过在网络文件中定义参数名称和相应的标记来将附加参数添加到列表中,有助于根据环境和目标声音的声学特性更恰当地定位声源,定位和声音分离的整体结果输出到一个文件夹中并保存在声纹数据库;在分析部分,直观地分析声音的时间分布和方向性,通过导出文件按钮,以指定总页数的PDF格式输出频谱图和定位结果,有助于以适当的时间尺度概述结果,所有声源的数据,包括它们的方向和持续时间等,都以JSON文件的形式输出,加载到注释工具并保存在声纹数据库;在注解部分,注解窗口顶部面板显示记录的频谱图,在x轴显示时间刻度和焦点时间段,焦点时间段和显示时间刻度可以调整,y轴显示在方向上对应的音频和声源,注解窗口中的x轴的每个框表示开始左边缘和结束右边缘时间以及y轴则显示相应源开始时间的方向,每个框的颜色代表其类,单击每个本地化声音的框,右侧显示声音本地化信息,可手动编辑信息,回放原录音中分离声音或持续时间的对应文件,支持编辑操作的撤消过程,通过拖动相应的框来修改每个源的位置,将修改后的数据以JSON文件形式保存在声纹数据库;在分类部分,以使用所有分离声音的频谱图作为数据集,对局部声源进行降维,采用学习库以降低数据维数,并绘制在二维平面上,可视化分布,通过参数设置进行网格搜索,对局部声音进行分类,参数包括复杂度、学习率、迭代次数等,在提取出合适的降维结果后,使用一个接口在特征空间上对声源进行可视化,在用于分类工具的界面,以节点的形式显示分离的声源,通过单击每个节点,频谱图将显示在另一个窗口中,并回放分离的声音,一组节点可以被划分为一个类,用一个框架包围,并指定,这个分组可以通过简单的键盘操作和鼠标操作完成,允许用户一次对相似的声音进行分类,用户在编辑频谱图时还可以选择噪声去除,通过关闭窗口,分类数据以JSON文件形式保存在声纹数据库;其中,噪声去除包括片段分割和事件检测的具体过程如下:片段分割具体为:步骤1、通过短时傅里叶变换对音频数据进行处理;步骤2、分割检测,步骤3、依据绝对最大值进行归一化,步骤4、移除高于20kHz和低于340kHz的频率赫兹得音频;自然界中这些频率中没有鸟叫声发生,因此是噪声予以滤出;步骤5、通过对每一频率和每一时间帧的频谱图进行中值剪切得到二值图像,以消除噪声,具体为:如果频谱图中的像素值大于其对应行和列中值的3倍,则将像素设为1,否则设为0;步骤6、应用闭合运算以填充当前功能任何小孔,闭合运算应用于大小为3,3的矩形邻域;步骤7、移除小于5像素的连接组件;步骤8、在大小为7,7的矩形邻域中应用膨胀扩张,膨胀算法将位于i,j处的像素设置为以i,j为中心的邻域中所有像素的最大值,扩张是为了扩大包含特征的区域即发声,并去除可以被认为是噪声的小物体;步骤9、使用中值滤波器对图像滤波;步骤10、移除小于150像素部分,从而将二值频谱图像切分;步骤11、在半径为3的圆形区域重新进行扩张;步骤12、将所有连接的像素定义为一个片段,进行片段分割;步骤13、计算每个片段的大小和位置;事件检测具体为:对于每个片段,创建可标签列表,初始化为包含该片段的记录的弱标签,分类过程将通过演绎消除该片段中不太可能出现的标签,将该片段的列表缩短为一个或多个标签,每个需要标记的片段通过匹配模板函数进行归一化相关,与不同的记录进行匹配,以获得所有可能的标签匹配,归一化相关用于将模板与二维目标图像匹配,与目标图像大小相同的响应图像,模板和目标图像之间的相关系数在-1、0和1、0之间,通过搜索响应图像中的最大峰值,找到片段与特定记录之间的匹配值,相似的鸟叫声应该出现在相似的频率上,将匹配模板应用于较小的频率范围,从而减少了计算量,这一过程分为三个不同的过程,即第一道、第二道和第三道,这三种方法都按顺序应用于记录,如下所述:步骤S1、第一次匹配为每个片段创建一组记录来查找匹配,表示由初始化列表生成的不同标签组合,录制在其弱标签中存在标签,对于需要标签的每个片段,将搜索记录列表,增加弱标签的数量,直到找到匹配项或不再有剩余的记录,匹配模板返回响应图像中的最大峰值,当匹配模板返回的相似率为0、4或更大时,为找到匹配;步骤S2、第二次匹配第二次匹配解决第一次匹配未匹配片段,音频记录的所有标签至少分配给一个片段,当音频记录中有未匹配片段和没有对应段的标签时,将未分配的标签分配给所有未匹配片段;步骤S3、第三次匹配,两次匹配后,音频记录中可能仍有未分配的标签,需要将音频记录的所有标签分配给至少一个片段,在所有片段段都有标签但某些弱标签没有分配给任何段的记录中,必须有一些标签被分配到多个段很可能是错误的,可能不止一个段有这个标签,但是当一个标签未被分配时,假设与同一个标签匹配的其中一个片段被错误分类,在其余标签的多个片段中搜索任何未分配标签的最佳匹配;如果找到匹配项,则从其派生的段的标签将更改为未分配的标签;其中,分离的具体过程如下:步骤B1,傅里叶变换,对于一个任意分布函数x和一个测试函数ψ,在内积,上满足:x',ψ=-x,ψ',则对于鸟类音频信号s视为一个分布,其满足:s',wejω=-s',w'ejω+jωs,wejω其中,表示内积,'表示导数,w为有限时间窗函数,s为鸟类音频信号;具有频率ω傅里叶变换函数Swω写成:Swω=s,wejω,步骤B2,转换正弦曲线函数: st表示正弦曲线函数,t表示时间,rt表示非平稳函数,rk表示非平稳参数,k表示阶数,C正整数,以下等式: 其中:对于任何有限时间窗函数w,可用于定义相对于非平稳参数rk,k>0的线性方程组;步骤B3,参数估计,估计出非平稳参数rk,k>0,估计出复平稳参数r0,根据得到其中,表示对非平稳函数rt的估计函数,步骤B4,估算鸟类音频的频率变化,用估计值k>0代替参数rk,k>0,得到的估计值线性系统以不同频率下的值Sw,Sw’,Stw形成,最宽的主瓣宽度为wtt,总共5个部分,将典型的鸟类音频的频率变化从真实记录中估算出来;步骤B5,分离音频,频率下限ωL和频率上限ωH的频率和幅度估计值对Sw,Sw’,Stw的频谱进行划分,从而得到分离的单一的鸟类音频,下面进行识别;其中,单一的鸟类音频的识别方法包括模型匹配和小波识别两种,其中,模型匹配的具体过程如下:步骤C1、采集数据,获取鸟类在不同地点和不同时期的单独音频记录,并提交给声纹数据库,按照44、1kHz采样率、1024帧以及50%有限时间窗的标准进行数据处理,获取标准频谱;步骤C2、匹配模型识别声场中的多个声源的任务使用已建立的多识别范例来完成,为了识别不同数量的鸟类音频源,引入了一个多重识别模型,多个声源观测值的当前状态随机决定以下状态以及它们之间的时间间隔如下表示: 其中,P表示条件概率,t表示特定时间,Yi表示第i个标准频谱,Xn,Tn表示观测值序列,Xn表示第n种状态,Tn表示第n种的时间,τn+1表示Tn+1-Tn时差,C表示正整数,观测值代表单个序列,则τn+1是已知的且固定,但如果观测值可能代表多个序列以及杂波噪声,则因果结构未知,τn+1被隐藏,在这种情况下,通过选择将数据划分为K个簇加上H个噪声事件来估计结构,从而使可能性最大化,即式中,L表示估计结构,pMRPk表示由单个MRP生成的第k组中观测子序列的可能性,pNOISEη表示第η个噪声数据的可能性;步骤C3、音频识别,使用互相关模板匹配范式来检测鸟类音频的单个音节,从标准频谱中检测音节,求取最大似然解从而实现对鸟类音频的识别,其中,小波变换的过程包括预处理、特征提取和识别,具体如下所述,步骤D1、预处理,通过预处理对一段音节进行适当的分割以提取特征,具体为:步骤D1、1、音节端点检测,如下所述:步骤D1、1、1、计算帧大小为N=512的x[n]的短时傅里叶变换X[m,k], 其中,m是帧编号,用于短时分析的汉明窗口wm[n]有以下形式; 步骤D1、1、2、通过对齐所有帧的频谱,形成信号的频谱图,X[m,k],m=1,2,...,M,其中M是x[n]的帧数;步骤D1、1、3、对于每一帧m,找到具有最大幅度的频率仓binm, 步骤D1、1、4、初始化音节j,j=1步骤D1、1、5、计算出现最大幅度的帧t, 音节j幅度为Aj,则Aj=20log10|X[m,binm]|dB步骤D1、1、6、从第t帧开始,向后和向前移动到第hj帧和第tj帧,如果二者的幅度和都小于Aj-20,那么第hj帧和第tj帧被称为音节j的头帧和尾帧;步骤D1、1、7、设置|X[m,binm]|=0,m=hj,hj+1,...,tj-1,tj;步骤D1、1、8、j=j+1;步骤D1、1、9、返回步骤D1、1、6,直到Aj<Aj-1-20,通过以上步骤,得到每个音节的边界;步骤D1、2、标准化和预增强通过标准化过程调节由于记录环境的多样性而引起的语音幅度的差异,幅度线性归一化到[-1,1]区域,由于高频信号的幅度通常比低频信号的幅度小得多,因此采用了预相位技术来增强高频信号,增通过一个有限脉冲响应FIR滤波器Hz实现的,其形式如下:Hz=a·z-1,Hz使得信号xn的滤波处理后的信号具有以下性质x其中,a是相似度,介于0、9和1之间,本发明将其设为0.95;步骤D1.3、分段以一段音节为中心进行切分,而不是单个音节的切分,由于鸟类音频的音节通常是重复的,提取一段音节的特征向量对于鸟类音频识别是很有实用价值的;在端点检测、归一化和预加重之后,通过检测音节的重复来完成切分过程;步骤D1.3.1、将i=1设为分段的第一个音节的索引;步骤D1.3.2、找出音节i和j之间的相似度a小于simij的音节,其中j是分段的最后一个音节;步骤D1.3.3、设置分段长度l=j;步骤D1.3.4、设置k=j+1;步骤D1.3.5、设定i=1,l=j;步骤D1.3.6、计算音节k和音节i之间的相似性simki;步骤D1.3.7、如果simki>a同类型,并且l=k-j,则停止分段,分段是从音节1到音节l;如果i=j,则j=j+1转到步骤1.3.5;否则,设置i=i+1和k=k+1,然后转到步骤1.3.6;步骤D1.3.8、如果i=i+1,则j=j+1,转到步骤1.3.5;步骤D1.3.9、设置k=k+1,l=l+1,然后转到步骤1.3.6;两个音节之间的相似性是通过计算相应频率仓的幅度之间的差异来确定的,由于鸟类音频的音节类型通常在6以内,a被设置为使l满足2<l<8的值,分段后,对分段后的音节进行对齐以进行特征提取;步骤D2、特征提取,音节分段后,计算鸟类音频的特征向量对齐音节,获取特征向量小波倒谱变换具体为:步骤D2.1、计算每个帧的倒谱系数,计算每个帧的倒谱系数的步骤如下:步骤D2.1.1、计算每个帧信号的快速傅立叶变换, 步骤D2.1.2、计算每个三角形滤波器带的能量, 式中,φj[k]表示第j个三角形滤波器在频率k处的幅度,Ej表示第j个滤波器带的能量,J是三角形滤波器的数量;步骤D2.1.3、用余弦变换计算倒谱系数, 其中cim表示第i帧的m阶倒谱系数;步骤D2.2、使用小波倒谱变换形成的特征向量,在获得对齐鸟类音频信号每帧的倒谱系数后,通过计算小波倒谱变换来获得鸟类音频的特征向量,如下所述:步骤D2.2.1、采集对齐信号所有帧的倒谱系数,{c10,c11,...,c1L-1,...,ci0,...,ciL-1,...},式中,L是倒谱系数的总阶数;步骤D2.2.2、对齐相同顺序的倒谱系数,sm[n]=[c1m,c2m,...,cim,...],m=0,...,L-1,步骤2.2.3、计算sm[n]的三级小波变换, 其中,δ[n]和d[n]表示sm[n]的低频和高频分量,h0[k]和h1[k]是变换中应用的低通和高通滤波器,为:h0[k]=[0.3327,0.8069,0.4599,-0.1350,-0.0854,0.0352]h1[k]=[0.0352,0.0854,-0.1350,-0.4599,0.8069,-0.3327]sm[n]的六个序列进行小波倒谱变换转换,表示为步骤D2.2.4、计算六个序列中每个序列的平均值,表示为步骤D2.2.5、利用所有前五阶倒谱系数序列的六个平均值形成特征向量 步骤D3、使用BP神经网络进行识别,在训练过程中,训练音节的特征向量作为输入,对应的鸟类物种作为期望输出,输入层的节点数等于训练向量的维数,而输出层的节点数等于鸟种的数量;隐藏层中的节点数被设置为另外两层的平均值,隐藏节点和输出节点使用激活函数,一个测试鸟类音频是通过与训练部分相同的过程获得的;将特征向量输入到bp神经网络后,网络的输出表明了测试鸟叫声所属的物种类别。

全文数据:

权利要求:

百度查询: 浙江弄潮儿智慧科技有限公司 一种具有自动分类的海洋空间资源管理系统及其自动分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。