买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:华南理工大学
摘要:本发明公开了一种基于声音事件检测的独居老人家中活动估计方法,包括下列步骤:首先,在室内放置一个拾音器阵列进行多通道音频数据的采集并对音频数据进行预处理,包括分帧与加窗;接着,从每个通道的音频数据提取对数梅尔频谱特征,从所有通道的音频数据提取DOA空间谱特征,并将对数梅尔频谱特征和DOA空间谱特征进行拼接;然后,将上述拼接的特征输入卷积神经网络进行特征变换;最后,将变换后的特征输入到卷积神经网络分类器,估计活动类型。本发明从多通道音频数据提取谱特征及其变换特征,可以增加训练数据的多样性,有效提高卷积神经网络分类器的泛化能力,在估计老人家中活动时,可获得更高准确率。
主权项:1.一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的活动估计方法包括以下步骤:S1、多通道音频数据采集:在房屋室内放置拾音器阵列,采集多通道音频数据,包括多类声音事件;S2、音频数据预处理:对采集到的各通道音频数据进行分帧和加窗处理;S3、频谱特征提取:从预处理后的各通道音频数据提取对数梅尔频谱特征;S4、空间谱特征提取:从预处理后的所有通道音频数据提取DOA空间谱特征,过程如下:S4.1、第t个通道的每帧音频记为unt,0≤t≤C-1,0≤n≤N-1,定义第n个采样点每个通道音频数据组成的向量为: 则每帧音频的协方差函数定义为: 其中表示Un的共轭转置;S4.2、对进行特征值分解,可解得特征值对角矩阵:Λ=diagλ0,λ1,......,λC-1,和特征向量矩阵:V=[v0,v1,......,vC-1],其中v0,v1,......,vC-1按从大到小的顺序排列;S4.3、对特征值进行统计,将特征值λ0,λ1,......,λC-1分成两组,一组为D个大数值,另一组为C-D=K个小数值;S4.4、取V的后K列构成噪声子空间VK:VK=[vD,vD+1,......,vC-1];S4.5、计算空间谱,在区间[-π,π]按的分辨率采样,得到序列θs,0≤s≤E×C-1,确定方向向量a[θs],对第s个角度θs的DOA空间谱估计值为: 其中aH[θs]表示a[θs]的共轭转置;S4.6、对每帧中的所有采样点重复以上操作,每一帧可得长度为E×C的DOA空间谱估计序列MUSd,0≤d≤E×C-1;S4.7、对所有帧重复以上操作,将每一帧得到的DOA空间谱估计序列MUSd,0≤d≤E×C-1作为列向量MUSi,0≤i≤M-1,按时间顺序组成E×C行M列的特征矩阵,所述的特征矩阵为DOA空间谱特征;S5、特征拼接:将上述对数梅尔频谱特征和DOA空间谱特征拼接成一个特征矩阵,过程如下:S5.1、将每个通道的对数梅尔频谱特征拼接起来,构成一个E×C行M列的特征矩阵,其中M为各通道音频的帧数,E为梅尔滤波器个数,C为通道个数;S5.2、将上述拼接后的对数梅尔频谱特征与DOA空间谱特征拼接起来,构成一个E×C行2M列的特征矩阵;S6、特征变换:将上述拼接后的特征输入卷积神经网络,得到变换后的特征;S7、老人家中活动估计:将上述变换后的特征输入卷积神经网络分类器,辨识音频数据样本中的声音事件,从而估计该样本所对应的老人家中活动类型。
全文数据:一种基于声音事件检测的独居老人家中活动估计方法技术领域本发明涉及音频信号处理和深度学习技术,具体涉及一种基于声音事件检测的独居老人家中活动估计方法。背景技术随着医疗条件的不断改善,人类的平均寿命大大延长,且全世界的生育率在不断下降,老年人在当今社会所占的比例将越来越大。目前大部分老人都不与子女共同居住,独居老人越来越多。因此,对独居老人的监护需求变得十分迫切。目前,对老人的家中活动估计方法主要包括:基于图像的视频分析方法和基于穿戴设备的传感信号分析方法。这些方法存在以下不足:第一,摄像头存在死角,不能监测老人活动的所有范围;第二,摄像头一般不会监测卫生间、卧室等涉及隐私的位置,而这些地方是老人经常出现摔倒等异常活动的场所;第三,老人可能不喜欢或经常忘记佩戴传感器等穿戴设备,可穿戴设备在一定程度上会影响其日常活动。发明内容为了弥补上述方法的不足,本发明公开了一种基于声音事件检测的独居老人家中活动估计方法。本发明的方法采用拾音器阵列采集多通道数据,即采集独居老人家中的多类声音事件例如摔倒声、自来水声、吸尘器声、碗筷声、谈话声、电视播放声、大声呼救声、痛苦呻吟声等,再从声音事件音频数据中提取频谱特征及空间谱特征并对上述特征进行拼接与变换,变换后的特征输入卷积神经网络分类器进行声音事件类型的判决,从而估计独居老人家中活动类型例如摔倒、洗碗、看电视、呼救、正常谈话等。本发明的方法具有检测范围广、覆盖率高、不需穿戴任何设备、不存在隐私泄露等优点,从多通道音频数据提取特征并进行深层变换与融合,分类器泛化能力强,估计准确率高。本发明的技术目的可通过以下技术方案实现:一种基于声音事件检测的独居老人家中活动估计方法,所述的活动估计方法包括以下步骤:S1、多通道音频数据采集:在房屋室内放置拾音器阵列,采集多通道音频数据,包括多类声音事件;S2、音频数据预处理:对采集到的各通道音频数据进行分帧和加窗处理;S3、频谱特征提取:从预处理后的各通道音频数据提取对数梅尔频谱特征LogMelSpectrum;S4、空间谱特征提取:从预处理后的所有通道音频数据提取DOADirectionOfArrival空间谱特征;S5、特征拼接:将上述对数梅尔频谱特征和DOA空间谱特征拼接成一个特征矩阵;S6、特征变换:将上述拼接后的特征输入卷积神经网络,得到变换后的特征;S7、老人家中活动估计:将上述变换后的特征输入卷积神经网络分类器,辨识音频数据样本中的声音事件,从而估计该样本所对应的老人家中活动类型。进一步地,所述的步骤S1、多通道音频数据采集过程如下:S1.1、拾音器放置:将拾音器阵列放置在房屋室内的中心位置,设拾音器阵列包含C个拾音器,按顺时针顺序将拾音器从0到C-1进行编号并将第0号拾音器作为基准拾音器,则第t号拾音器与基准拾音器之间的角度为:S1.2、音频数据采集的参数设置:将音频数据的采样频率设为44.1KHz,量化位数设为16位。进一步地,所述的步骤S2、音频数据预处理如下:S2.1、分帧:将每个通道的音频数据切分成固定长度的音频帧,对于某通道音频数据xn,0≤n≤L-1,其中L为音频数据的采样点总数,则第i帧音频xin为:xin=xi×S:i×S+N-1,0≤i≤M-1,0≤n≤N-1,其中,M为总帧数,N为帧长,S为帧移,ceil﹒为向上取整函数;S2.2、加窗:将每帧音频与汉明窗HammingWindow相乘实现加窗操作,汉明窗函数定义为:其中N为帧长。进一步地,所述的步骤S3、频谱特征提取如下:S3.1、将预处理后的各帧音频分别进行离散傅立叶变换得到其线性频谱,离散傅立叶变换定义为:其中,Xik为第i帧音频的线性频谱,M为总帧数,N为帧长;S3.2、构建梅尔三角滤波器组,过程如下:S3.2.1、滤波的最低、最高频率分别为FL、FH,根据梅尔频率与线性频率的转换关系式可得在梅尔频率尺度下的最低频率ML和最高频率MH,该转换关系式为:其中,Melf为转换后的梅尔频率,f为线性频率;S3.2.2、梅尔三角滤波器组由一定数量的梅尔滤波器组成,滤波器个数为E,每个梅尔滤波器的幅度特性为三角形,下限频率为flm、中心频率为fcm、上限频率为fhm,其中0≤m≤E-1,将区间[ML,MH]等分为E+2个频段,得到序列mn,0≤n≤E+1,再通过线性频率与梅尔频率的转换关系式,得到序列hn,0≤n≤E+1,该转换关系式为:其中,Tmel为转换后的线性频率,mel为梅尔频率;S3.2.3、hn中每相邻的三个点为一个梅尔滤波器的下限频率、中心频率和上限频率,第m个梅尔滤波器的三个频率与hn的对应关系为:再将上述频率用以下公式转换到离散索引坐标上,得到flm、fcm、fhm:其中,df为转换后的离散结果,f为输入频率,N为帧长,fs为采样频率,floor﹒为向下取整函数,则第m个梅尔滤波器的传递函数为:其中k为线性频率;S3.3、用构建好的梅尔三角滤波器组对线性频谱Xik进行滤波,第m个梅尔滤波器与第i帧线性频谱的滤波表达式为:S3.4、对滤波后的结果取对数,得到对数梅尔频谱特征,第i帧音频的对数梅尔频谱特征为:FMim=lnFim,0≤m≤E-1,0≤i≤M-1。进一步地,所述的步骤S4、空间谱特征提取如下:S4.1、第t个通道的每帧音频记为unt,0≤t≤C-1,0≤n≤N-1,定义第n个采样点每个通道音频数据组成的向量为:则每帧音频的协方差函数定义为:其中表示Un的共轭转置;S4.2、对进行特征值分解,可解得特征值对角矩阵:Λ=diagλ0,λ1,……,λC-1,和特征向量矩阵:V=[v0,v1,……,vC-1],其中v0,v1,……,vC-1按从大到小的顺序排列;S4.3、对特征值进行统计,将特征值λ0,λ1,……,λC-1分成两组,一组为D个大数值,另一组为C-D=K个小数值;S4.4、取V的后K列构成噪声子空间VK:VK=[vD,vD+1,……,vC-1];S4.5、计算空间谱,在区间[-π,π]按的分辨率采样,得到序列θs,0≤s≤E×C-1,定义方向向量:对第s个角度θs的DOA空间谱估计值为:其中aH[θs]表示a[θs]的共轭转置;S4.6、对每帧中的所有采样点重复以上操作,每一帧可得长度为E×C的DOA空间谱估计序列MUSd,0≤d≤E×C-1;S4.7、对所有帧重复以上操作,将每一帧得到的DOA空间谱估计序列MUSd,0≤d≤E×C-1作为列向量MUSi,0≤i≤M-1,按时间顺序组成E×C行M列的特征矩阵。进一步地,所述的步骤S5、特征拼接如下:S5.1、将每个通道的对数梅尔频谱特征拼接起来,构成一个E×C行M列的特征矩阵,其中M为各通道音频的帧数,E为梅尔滤波器个数,C为通道个数;S5.2、将上述拼接后的对数梅尔频谱特征与DOA空间谱特征拼接起来,构成一个E×C行2M列的特征矩阵。进一步地,所述的步骤S6、特征变换如下:S6.1、构建用于特征变换的卷积神经网络CNNF,该卷积神经网络CNNF包括依次连接的层,结构为按以下序号顺序连接:①批量标准化层BatchNormalizationBN-1,②ReLU函数激活层ReLUActivationRA-1,③卷积层Conv-1,④批量标准化层BN-2,⑤ReLU函数激活层RA-2,⑥卷积层Conv-2,⑦最大池化层MaxPoolingMP,其中,第②、⑤层用于输入数据,第①、④层用于防止过拟合,第③、⑥层对数据进行变换,第⑦层对数据进行降采样;S6.2、对构建好的用于特征变换的卷积神经网络CNNF进行训练:首先在CNNF的基础上再添加两层:⑧1024单元的全连接层FC,⑨Softmax函数激活层SF,然后对所有层的参数进行随机初始化;接着使用Adam优化算法对网络进行训练,迭代次数为30次,学习率为1×10-4,目标损失函数为交叉熵函数CrossEntropy:其中K为估计的老人家中活动类型个数,yi为第i类活动标签,pi为网络对第i类活动的识别概率,Adam优化算法的具体步骤详见参考文献:DiederikKingma,JimmyBa.Adam:AMethodforStochasticOptimization.InThe3rdInternationalConferenceforLearningRepresentationsICLR,2015;S6.3、将拼接好的特征矩阵输入已训练好的CNNF,得到变换后的特征。进一步地,所述的步骤S7、老人家中活动估计如下:S7.1、构建卷积神经网络分类器CNNC;S7.2、对构建好的卷积神经网络分类器CNNC进行训练,使用Adam优化算法对整个网络进行训练优化以获得训练好的网络模型,目标损失函数同样为交叉熵函数;S7.3、将变换后的特征输入已训练好的CNNC进行判决,估计老人的活动类型。进一步地,所述的步骤S7.1如下:S7.1.1、定义特定卷积层ConvSEa,b,o,p,q为:由三条路径的卷积层组成,第一条路径是卷积核大小a×a、核数量o的卷积层Conva_o,第二条路径是卷积核大小a×a、核数量p的卷积层Conva_p连接上一层卷积核大小b×b、核数量q的卷积层Convb_q,第三条路径是卷积核大小a×a、核数量q的卷积层Conva_q连接上一层卷积核大小b×b、核数量p的卷积层Convb_p再连接上一层卷积核大小b×b、核数量o的卷积层Convb_o,最后将三条路径的卷积结果按通道顺序进行拼接;S7.1.2、通过多层多路径卷积层构建卷积神经网络分类器CNNC,逐层通道递增,能够逐渐学习特征的深层表达,该分类器包括依次连接的层,结构为按以下序号顺序连接:①批量标准化层BN-1;②ReLU函数激活层RA-1;③特定卷积层ConvSE-1;④批量标准化层BN-2;⑤ReLU函数激活层RA-2;⑥最大池化层MP-1;⑦特定卷积层ConvSE-2;⑧批量标准化层BN-3;⑨ReLU函数激活层RA-3;⑩最大池化层MP-2;特定卷积层ConvSE-3;批量标准化层BN-4;ReLU函数激活层RA-4;最大池化层MP-3;特定卷积层ConvSE-4;批量标准化层BN-5;ReLU函数激活层RA-5;特定卷积层ConvSE-5;全局平均池化层GlobalAveragePoolingGAP;1024单元的全连接层FC-1;批量标准化层BN-6;ReLU函数激活层RA-6;K单元的全连接层FC-2,其中K为估计的老人家中活动类型个数;Softmax函数激活层SF。与现有的技术方法相比,本发明具有以下优点:1、在室内的中心位置布置拾音器阵列可以完全覆盖老人活动范围。2、拾音器的覆盖范围广且不涉及隐私问题。3、不需要穿戴任何可穿戴设备,不影响老人的正常生活,具有便利性。4、具有鲁棒性强、识别准确率高、泛化性能好等优点。附图说明为更清楚地说明本发明实施例的具体技术方案,下面对该实施例所使用的附图进行简单地介绍,显而易见,以下附图展示的仅是本发明所有实施例的一部分,而非所有实施例,因此本发明的保护范围不限于此。本领域普通技术人员在没有做出创造性劳动前提下还可以根据这些附图获得其他相关的附图。图1为本发明实施例的声音事件检测方法的概要流程图;图2为本发明实施例的用于特征变换处理的卷积神经网络的结构示意图;图3为本发明实施例的卷积神经网络分类器结构中的特定卷积层的结构示意说明图;图4为本发明实施例的卷积神经网络分类器的结构示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例和附图,对本发明中的技术实现方案进行更加清楚、完整地解释,需要注意的是,在此所描述的实施例仅是本发明的所有实施例的一部分,而非所有实施例,因此本发明的保护范围不限于此。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例如附图1所示,本发明的实施例的具体实现步骤为:S1、多通道音频数据采集:在独居老人的房屋室内放置拾音器阵列,采集多通道音频数据,包括多类声音事件,例如摔倒声、自来水声、电视播放声、吸尘器声、碗筷声,在本实施例中,该步骤具体包括以下步骤:S1.1、拾音器放置:将拾音器阵列放置在独居老人的房屋室内的中心位置,设拾音器阵列包含C个拾音器,按顺时针顺序将拾音器从0到C-1进行编号并将第0号拾音器作为基准拾音器,则第t号拾音器与基准拾音器之间的角度为:本实施例中C=8;S1.2、音频数据采集的参数设置:音频数据的采样频率为44.1KHz,量化位数为16位。S2、音频数据预处理:对采集到的各通道音频数据进行分帧和加窗处理,在本实施例中,该步骤具体包括以下步骤:S2.1、分帧:将每个通道的音频数据切分成固定长度的音频帧。对于某通道音频数据xn,0≤n≤L-1,其中L为音频数据的采样点总数,则第i帧音频xin为:xin=xi×S:i×S+N-1,0≤i≤M-1,0≤n≤N-1,其中,M为总帧数,N为帧长,S为帧移,ceil﹒为向上取整函数,本实施例中取L=441344,N=2048,S=1024,M=430;S2.2、加窗:将每帧音频与汉明窗HammingWindow相乘实现加窗操作,汉明窗函数定义为:其中N为帧长,本实施例中取N=2048。S3、频谱特征提取:从预处理后的各通道音频数据提取对数梅尔频谱特征LogMelSpectrum,在本实施例中,该步骤具体包括以下步骤:S3.1、将预处理后的各帧音频分别进行离散傅立叶变换得到其线性频谱,离散傅立叶变换定义为:其中,Xik为第i帧音频的线性频谱,M为总帧数,N为帧长,本实施例中取N=2048,M=430;S3.2、构建梅尔三角滤波器组,过程如下:S3.2.1、滤波的最低、最高频率分别为FL、FH,根据梅尔频率与线性频率的转换关系式可得在梅尔频率尺度下的最低频率ML和最高频率MH,该转换关系式为:其中,Melf为转换后的梅尔频率,f为线性频率,本实施例中取FL=0,最高频率FH取22050;S3.2.2、梅尔三角滤波器组由一定数量的梅尔滤波器组成,滤波器个数为E,每个梅尔滤波器的幅度特性为三角形,下限频率为flm、中心频率为fcm、上限频率为fhm,其中0≤m≤E-1,将区间[ML,MH]等分为E+2个频段,得到序列mn,0≤n≤E+1,再通过线性频率与梅尔频率的转换关系式,得到序列hn,0≤n≤E+1,该转换关系式为:其中,Tmel为转换后的线性频率,mel为梅尔频率,本实施例中取E=128;S3.2.3、hn中每相邻的三个点为一个梅尔滤波器的下限频率、中心频率和上限频率,第m个梅尔滤波器的三个频率与hn的对应关系为:再将上述频率用以下公式转换到离散索引坐标上,得到flm、fcm、fhm:其中,df为转换后的离散结果,f为输入频率,N为帧长,fs为采样频率,floor﹒为向下取整函数,则第m个梅尔滤波器的传递函数为:其中k为线性频率,本实施例中取N=2048,fs=44100Hz;S3.3、用构建好的梅尔三角滤波器组对线性频谱Xik进行滤波,第m个梅尔滤波器与第i帧线性频谱的滤波表达式为:S3.4、对滤波后的结果取对数,得到对数梅尔频谱特征,第i帧音频的对数梅尔频谱特征为:FMim=lnFim,0≤m≤E-1,0≤i≤M-1。S4、空间谱特征提取:从预处理后的所有通道音频数据提取DOADirectionOfArrival空间谱特征,在本实施例中,该步骤具体包括以下步骤:S4.1、第t个通道的每帧音频记为unt,0≤t≤C-1,0≤n≤N-1,定义第n个采样点每个通道音频数据组成的向量为:则每帧音频的协方差函数定义为:其中表示Un的共轭转置,本实施例中取C=8,N=2048;S4.2、对进行特征值分解,可解得特征值对角矩阵:Λ=diagλ0,λ1,……,λC-1,和特征向量矩阵:V=[v0,v1,……,vC-1],其中v0,v1,……,vC-1按从大到小的顺序排列;S4.3、对特征值进行统计,将特征值λ0,λ1,……,λC-1分成两组,一组为D个大数值,另一组为C-D=K个小数值,本实施例中C=8;S4.4、取V的后K列构成噪声子空间VK:VK=[vD,vD+1,……,vC-1];S4.5、计算空间谱,在区间[-π,π]按的分辨率采样,得到序列θs,0≤s≤E×C-1,定义方向向量:对第s个角度θs的DOA空间谱估计值为:其中aH[θs]表示a[θs]的共轭转置,本实施例中取C=8,E=128;S4.6、对每帧中的所有采样点重复以上操作,每一帧可得长度为E×C的DOA空间谱估计序列MUSd,0≤d≤E×C-1,本实施例中C=8,E=128;S4.7、对所有帧重复以上操作,将每一帧得到的DOA空间谱估计序列MUSd,0≤d≤E×C-1作为列向量MUSi,0≤i≤M-1,按时间顺序组成E×C行M列的特征矩阵,本实施例中为1024行430列。S5、特征拼接:将上述对数梅尔频谱特征和DOA空间谱特征拼接成一个特征矩阵,在本实施例中,该步骤具体包括以下步骤:S5.1、将每个通道的对数梅尔频谱特征拼接起来,构成一个E×C行M列的特征矩阵,其中M为各通道音频的帧数,E为梅尔滤波器个数,C为通道个数,本实施例中取C=8,E=128,M=430;S5.2、将上述拼接后的对数梅尔频谱特征与DOA空间谱特征拼接起来,构成一个E×C行2M列的特征矩阵,本实施例中为1024行860列。S6、特征变换:将上述拼接后的特征输入卷积神经网络,得到变换后的特征,在本实施例中,该步骤具体包括以下步骤:S6.1、构建用于特征变换的卷积神经网络CNNF,如附图2所示,该卷积神经网络CNNF包括依次连接的层,结构为按以下序号顺序连接:①批量标准化层BatchNormalizationBN-1,②ReLU函数激活层ReLUActivationRA-1,③卷积层Conv-1,本实施例中卷积核大小3×3,核数量32,步长1×1,④批量标准化层BN-2,⑤ReLU函数激活层RA-2,⑥卷积层Conv-2,本实施例中卷积核大小3×3,核数量64,步长1×1,⑦最大池化层MaxPoolingMP,本实施例中池化窗口大小2×2,步长2×2,其中,第②、⑤层用于输入数据,第①、④层用于防止过拟合,第③、⑥层对数据进行变换,第⑦层对数据进行降采样;S6.2、对构建好的用于特征变换的卷积神经网络CNNF进行训练:首先在CNNF的基础上再添加两层:⑧1024单元的全连接层FC,⑨Softmax函数激活层SF;然后对所有层的参数进行随机初始化;接着使用Adam优化算法对网络进行训练,迭代次数为30次,学习率为1×10-4,本实施例中训练参数分别为α=0.001,β1=0.9,β2=0.999,∈=10-8,目标损失函数为交叉熵函数CrossEntropy:其中K为估计的老人家中活动类型个数,yi为第i类活动标签,pi为网络对第i类活动的识别概率,Adam优化算法的具体步骤详见参考文献:DiederikKingma,JimmyBa.Adam:AMethodforStochasticOptimization.InThe3rdInternationalConferenceforLearningRepresentationsICLR,2015;S6.3、将拼接好的特征矩阵输入已训练好的CNNF,得到变换后的特征。S7、老人家中活动估计:将上述变换后的特征输入卷积神经网络分类器,辨识音频数据样本中的声音事件,从而估计该样本所对应的老人家中活动类型,在本实施例中,该步骤具体包括以下步骤:S7.1、构建卷积神经网络分类器CNNC,更进一步地,本步骤具体包括以下步骤:S7.1.1、在本实施例中,定义特定卷积层ConvSEo,p,q为:如附图3所示,由三条路径的卷积层组成,第一条路径是卷积核大小1×1、核数量o的卷积层Conv1_o,第二条路径是卷积核大小1×1、核数量p的卷积层Conv1_p连接上一层卷积核大小3×3、核数量q的卷积层Conv3_q,第三条路径是卷积核大小1×1、核数量q的卷积层Conv1_q连接上一层卷积核大小3×3、核数量p的卷积层Conv3_p再连接上一层卷积核大小3×3、核数量o的卷积层Conv3_o,最后将三条路径的卷积结果按通道顺序进行拼接,在本实施例中每个卷积层的步长均取为1×1;S7.1.2、所构建的卷积神经网络分类器CNNC主要由多层多路径卷积层构成,逐层通道递增,能够逐渐学习特征的深层表达,在本实施例中,如附图4所示,该分类器包括依次连接的层,结构为按以下序号顺序连接:①批量标准化层BN-1;②ReLU函数激活层RA-1;③特定卷积层Conv64,96,128;④批量标准化层BN-2;⑤ReLU函数激活层RA-2;⑥池化窗2×2且步长2×2的最大池化层MP-1;⑦特定卷积层Conv80,120,160;⑧批量标准化层BN-3;⑨ReLU函数激活层RA-3;⑩池化窗2×2且步长2×2的最大池化层MP-2;特定卷积层Conv96,144,192;批量标准化层BN-4;ReLU函数激活层RA-4;池化窗2×2且步长2×2的最大池化层MP-3;特定卷积层Conv112,168,224;批量标准化层BN-5;ReLU函数激活层RA-5;特定卷积层Conv128,192,256;全局平均池化层GlobalAveragePoolingGAP;1024单元的全连接层FC-1;批量标准化层BN-6;ReLU函数激活层RA-6;K单元的全连接层FC-2,其中K为估计的老人家中活动类型个数,本实施例中取K=10;Softmax函数激活层SF;S7.2、对构建好的卷积神经网络分类器CNNC进行训练,使用Adam优化算法对整个网络进行训练优化以获得训练好的网络模型,本实施例中训练参数分别为α=0.001,β1=0.9,β2=0.999,∈=10-8,目标损失函数同样为交叉熵函数;S7.3、将变换后的特征输入已训练好的CNNC进行判决,估计老人的活动类型,本实施例中取活动类型总量K=8,包括看电视、洗碗、做饭、睡觉、摔倒、大声呼救、正常谈话、吸尘扫地。显而易见,上述的实施例仅为本发明的一种较优的实施例,本发明的保护范围和实施方式并不受以上实施例所限制。本领域普通技术人员在未背离本发明的精神和范围下所作的任何改变、改进或替换等,均包含在本发明的保护范围之内。
权利要求:1.一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的活动估计方法包括以下步骤:S1、多通道音频数据采集:在房屋室内放置拾音器阵列,采集多通道音频数据,包括多类声音事件;S2、音频数据预处理:对采集到的各通道音频数据进行分帧和加窗处理;S3、频谱特征提取:从预处理后的各通道音频数据提取对数梅尔频谱特征;S4、空间谱特征提取:从预处理后的所有通道音频数据提取DOA空间谱特征;S5、特征拼接:将上述对数梅尔频谱特征和DOA空间谱特征拼接成一个特征矩阵;S6、特征变换:将上述拼接后的特征输入卷积神经网络,得到变换后的特征;S7、老人家中活动估计:将上述变换后的特征输入卷积神经网络分类器,辨识音频数据样本中的声音事件,从而估计该样本所对应的老人家中活动类型。2.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S1、多通道音频数据采集过程如下:S1.1、拾音器放置:将拾音器阵列放置在房屋室内的中心位置,设拾音器阵列包含C个拾音器,按顺时针顺序将拾音器从0到C-1进行编号并将第0号拾音器作为基准拾音器,则第t号拾音器与基准拾音器之间的角度为:S1.2、音频数据采集的参数设置:将音频数据的采样频率设为44.1KHz,量化位数设为16位。3.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S2、音频数据预处理如下:S2.1、分帧:将每个通道的音频数据切分成固定长度的音频帧,对于某通道音频数据xn,0≤n≤L-1,其中L为音频数据的采样点总数,则第i帧音频xin为:xin=xi×S:i×S+N-1,0≤i≤M-1,0≤n≤N-1,其中,M为总帧数,N为帧长,S为帧移,ceil﹒为向上取整函数;S2.2、加窗:将每帧音频与汉明窗相乘实现加窗操作,汉明窗函数定义为:其中N为帧长。4.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S3、频谱特征提取如下:S3.1、将预处理后的各帧音频分别进行离散傅立叶变换得到其线性频谱,离散傅立叶变换定义为:其中,Xik为第i帧音频的线性频谱,M为总帧数,N为帧长;S3.2、构建梅尔三角滤波器组,过程如下:S3.2.1、滤波的最低、最高频率分别为FL、FH,根据梅尔频率与线性频率的转换关系式可得在梅尔频率尺度下的最低频率ML和最高频率MH,该转换关系式为:其中,Melf为转换后的梅尔频率,f为线性频率;S3.2.2、梅尔三角滤波器组由一定数量的梅尔滤波器组成,滤波器个数为E,每个梅尔滤波器的幅度特性为三角形,下限频率为flm、中心频率为fcm、上限频率为fhm,其中0≤m≤E-1,将区间[ML,MH]等分为E+2个频段,得到序列mn,0≤n≤E+1,再通过线性频率与梅尔频率的转换关系式,得到序列hn,0≤n≤E+1,该转换关系式为:其中,Tmel为转换后的线性频率,mel为梅尔频率;S3.2.3、hn中每相邻的三个点为一个梅尔滤波器的下限频率、中心频率和上限频率,第m个梅尔滤波器的三个频率与hn的对应关系为:再将上述频率用以下公式转换到离散索引坐标上,得到flm、fcm、fhm:其中,df为转换后的离散结果,f为输入频率,N为帧长,fs为采样频率,floor﹒为向下取整函数,则第m个梅尔滤波器的传递函数为:其中k为线性频率;S3.3、用构建好的梅尔三角滤波器组对线性频谱Xik进行滤波,第m个梅尔滤波器与第i帧线性频谱的滤波表达式为:S3.4、对滤波后的结果取对数,得到对数梅尔频谱特征,第i帧音频的对数梅尔频谱特征为:FMim=lnFim,0≤m≤E-1,0≤i≤M-1。5.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S4、空间谱特征提取如下:S4.1、第t个通道的每帧音频记为unt,0≤t≤C-1,0≤n≤N-1,定义第n个采样点每个通道音频数据组成的向量为:则每帧音频的协方差函数定义为:其中表示Un的共轭转置;S4.2、对进行特征值分解,可解得特征值对角矩阵:Λ=diagλ0,λ1,……,λC-1,和特征向量矩阵:V=[v0,v1,……,vC-1],其中v0,v1,……,vC-1按从大到小的顺序排列;S4.3、对特征值进行统计,将特征值λ0,λ1,……,λC-1分成两组,一组为D个大数值,另一组为C-D=K个小数值;S4.4、取V的后K列构成噪声子空间VK:VK=[vD,vD+1,……,vC-1];S4.5、计算空间谱,在区间[-π,π]按的分辨率采样,得到序列θs,0≤s≤E×C-1,定义方向向量:对第s个角度θs的DOA空间谱估计值为:其中aH[θs]表示a[θs]的共轭转置;S4.6、对每帧中的所有采样点重复以上操作,每一帧可得长度为E×C的DOA空间谱估计序列MUSd,0≤d≤E×C-1;S4.7、对所有帧重复以上操作,将每一帧得到的DOA空间谱估计序列MUSd,0≤d≤E×C-1作为列向量MUSi,0≤i≤M-1,按时间顺序组成E×C行M列的特征矩阵。6.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S5、特征拼接如下:S5.1、将每个通道的对数梅尔频谱特征拼接起来,构成一个E×C行M列的特征矩阵,其中M为各通道音频的帧数,E为梅尔滤波器个数,C为通道个数;S5.2、将上述拼接后的对数梅尔频谱特征与DOA空间谱特征拼接起来,构成一个E×C行2M列的特征矩阵。7.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S6、特征变换如下:S6.1、构建用于特征变换的卷积神经网络CNNF,该卷积神经网络CNNF包括依次连接的层,结构为按以下序号顺序连接:①批量标准化层BN-1,②ReLU函数激活层RA-1,③卷积层Conv-1,④批量标准化层BN-2,⑤ReLU函数激活层RA-2,⑥卷积层Conv-2,⑦最大池化层MP,其中,第②、⑤层用于输入数据,第①、④层用于防止过拟合,第③、⑥层用于进行数据变换,第⑦层用于进行数据降采样;S6.2、对构建好的用于特征变换的卷积神经网络CNNF进行训练:首先在CNNF的基础上再添加两层:⑧1024单元的全连接层FC,⑨Softmax函数激活层SF,然后对所有层的参数进行随机初始化;接着使用Adam优化算法对网络进行训练,迭代次数为30次,学习率为1×10-4,目标损失函数为交叉熵函数:其中K为估计的老人家中活动类型个数,yi为第i类活动标签,pi为网络对第i类活动的识别概率;S6.3、将拼接好的特征矩阵输入已训练好的卷积神经网络CNNF,得到变换后的特征。8.根据权利要求1所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S7、老人家中活动估计如下:S7.1、构建卷积神经网络分类器CNNC;S7.2、对构建好的卷积神经网络分类器CNNC进行训练,使用Adam优化算法对整个网络进行训练优化以获得训练好的网络模型,目标损失函数同样为交叉熵函数;S7.3、将变换后的特征输入已训练好的CNNC进行判决,估计老人的活动类型。9.根据权利要求8所述的一种基于声音事件检测的独居老人家中活动估计方法,其特征在于,所述的步骤S7.1如下:S7.1.1、定义特定卷积层ConvSEa,b,o,p,q为:由三条路径的卷积层组成,第一条路径是卷积核大小a×a、核数量o的卷积层Conva_o,第二条路径是卷积核大小a×a、核数量p的卷积层Conva_p连接上一层卷积核大小b×b、核数量q的卷积层Convb_q,第三条路径是卷积核大小a×a、核数量q的卷积层Conva_q连接上一层卷积核大小b×b、核数量p的卷积层Convb_p再连接上一层卷积核大小b×b、核数量o的卷积层Convb_o,最后将三条路径的卷积结果按通道顺序进行拼接;S7.1.2、通过多层多路径卷积层构建卷积神经网络分类器CNNC,该分类器包括依次连接的层,结构为按以下序号顺序连接:①批量标准化层BN-1;②ReLU函数激活层RA-1;③特定卷积层ConvSE-1;④批量标准化层BN-2;⑤ReLU函数激活层RA-2;⑥最大池化层MP-1;⑦特定卷积层ConvSE-2;⑧批量标准化层BN-3;⑨ReLU函数激活层RA-3;⑩0最大池化层MP-2;特定卷积层ConvSE-3;批量标准化层BN-4;ReLU函数激活层RA-4;最大池化层MP-3;特定卷积层ConvSE-4;批量标准化层BN-5;ReLU函数激活层RA-5;特定卷积层ConvSE-5;全局平均池化层GAP;1024单元的全连接层FC-1;批量标准化层BN-6;ReLU函数激活层RA-6;K单元的全连接层FC-2,其中K为估计的老人家中活动类型个数;Softmax函数激活层SF。
百度查询: 华南理工大学 一种基于声音事件检测的独居老人家中活动估计方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。