恭喜东南大学陈泽华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜东南大学申请的专利一种面向智能驾驶测评的音频预警智能识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115346514B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210947191.7,技术领域涉及:G10L15/01;该发明授权一种面向智能驾驶测评的音频预警智能识别方法是由陈泽华;葛迅;袁奡;徐启敏设计研发完成,并于2022-08-08向国家知识产权局提交的专利申请。
本一种面向智能驾驶测评的音频预警智能识别方法在说明书摘要公布了:本发明公开了一种面向智能驾驶测评的音频预警智能识别方法,该方法对采集到的音频预警语音进行分析,确定音频预警的发出时间,从而对音频预警的时效性进行公正评测。首先,通过软阈值小波降噪,将语音中的噪声信息滤除;接着,使用基于双门限法的端点检测,标注出待测语音中的有效语音段;然后,对有效语音段的每帧语音提取MFCC特征;最后,用MFCC特征对LSTM网络进行训练,训练完成后可以检测出音频预警信号所在的语音段,该语音段的起始位置就是音频预警的发出时间。
本发明授权一种面向智能驾驶测评的音频预警智能识别方法在权利要求书中公布了:1.一种面向智能驾驶测评的音频预警智能识别方法,其特征在于:包括以下步骤:步骤1:基于小波变换的阈值去噪首先,对原始语音信号Sn进行离散小波分解;选取N阶Daubechies小波系作为小波基函数,简记为dbN;对语音信号进行J层小波分解,得到近似分量的小波系数cjn和细节分量的小波系数djn,具体表达式如式1所示: 其中j表示小波系数分解层数;cj+1m表示近似小波系数cj+1n的第m个值,dj+1m表示细节小波系数dj+1n的第m个值;ln与hn分别为小波基函数dbN对应的分解低通滤波器系数与高通滤波器系数;式1中的c0n即为原始语音信号Sn;通过式1的计算得到近似分量cJn与不同尺度下的细节分量d1n,d2n,……,dJn;接着对分解得到的小波系数进行阈值去噪;在小波域中,有效信号所对应的小波系数的模值往往较大;而噪声在时间域中具有随机性,在小波域中其对应的小波系数的模值往往较小;因此将近似分量cJn保留,对细节分量d1n,d2n,……,dJn进行阈值降噪;采用软阈值函数来对细节分量系数进行更新,软阈值函数表达式如式2所示: 其中为更新后的细节分量系数,djn为原始细节分量系数,λ为去噪阈值;阈值λ由公式λ=σ0.3936+0.1829×log2N确定,N为原始信号Sn的长度,σ由确定;通过该阈值去噪函数将噪声分量去除得到更新后的细节分量系数最后对去噪后的小波系数进行重构得到降噪语音Xn;利用阈值去噪后的小波系数进行重构,小波重构表达式如式3所示: 其中与分别是小波基函数dbN的重构低通滤波器系数与高通滤波器系数,为ln与hn的镜像滤波器;cj+1n为近似分量,从cJn开始迭代;为去噪后的细节分量系数;经过层层迭代后得到的即为去噪后的语音信号Xn,至此小波去噪完成;步骤2:基于双门限的语音端点检测首先对降噪得到的语音Xn进行分帧;以t秒为一帧,t取20ms,对语音进行分帧,得到xin;假设一段语音得到m帧;若语音Xn的采样频率为f,则一帧语音的采样点数量为K=t×f;分帧看成对语音进行加窗,使用的窗口函数为矩形窗;现对每帧语音定义两个语音特征量:短时能量与短时过零率,再用这两个语音特征量进行端点检测;一帧语音信号的短时能量定义如式4所示: 一帧语音信号的短时过零率定义如式5所示: 其中接着,定义两个短时能量阈值Ehigh与Elow,和一个短时过零率阈值Zth;Ehigh为一个较高的短时能量阈值,利用该阈值区分出语音的浊音部分;Ehigh取所有帧的短时能量平均值的一半,其取值如式6所示;将短时能量大于Ehigh的帧选中判定为语音段a,这部分语音主要为浊音,短时能量较大; Elow为一个较低的短时能量阈值,利用该阈值将能量较低的语音也选中,扩展语音段;Elow取前10帧短时能量均值与Ehigh的之和,其取值如式7所示;将短时能量大于Elow的语音段添加至语音段a,得到语音段b; Zth为短时过零率的阈值,其取值为前10帧短时过零率之和的三倍,如式8所示;将短时过零率大于Zth的清音部分添加至语音段b,得到语音段c; 将语音段c中帧数较少的部分剔除,剩余选中片段即为语音片段,即完成语音段的端点检测,在待测语音中标注出效语音片段的起始点;步骤3:提取语音MFCC特征对端点检测后得到的有效语音片段提取MFCC特征,假设某一段语音片段为sn,提取流程如下;1预加重,对语音片段进行预加重,提升高频部分,使信号的频谱变得平坦,计算公式如式9所示:s′n=sn-μsn-19其中μ取0.9~1.0;2分帧,分帧选用端点检测过程中的分帧结果;3加窗,对每一帧语音进行加窗,提高帧左右端的连续性,其计算公式如式10所示:gn=s′n×wn10其中,wn取汉明窗,如式11所示,其中K为一帧中的采样点数量; 4离散傅里叶变化,对每一帧语音信号进行DFT,计算公式如式12: 5三角滤波器组,定义一组梅尔三角滤波器,滤波器数量T=26,滤波器定义如式13: 其中fm的定义取值如式14: 式14中的fl与fh为根据语音采样频率fs定义的最低与最高频率,fmel为梅尔频率;floorx函数表示向下取整,K为一帧语音的采样点长度;6计算滤波器输出的对数能量,将经过DFT得到的Gk经过梅尔三角滤波器组,并得到其对数能量,计算公式如式15: 7离散余弦变化,将对数能量经过离散余弦变化,计算公式如式16: 其中,T为梅尔三角滤波器的数量,L表示得到的vn为L阶MFCC系数,取13;8动态差分参数;语音的静态特性用vn表示,而动态特性用其差分谱表示,计算公式如式17: 其中,Ω取1或2;即为一阶差分参数,也为13个系数;将标准梅尔倒谱参数vn与一阶差分参数合并为向量λ,λ即为语音片段sn的MFCC特征,为26维;步骤4:基于RNN的语音识别对步骤3得到的MFCC特征进行标签标注,分为两大类:含目标语音与不含目标语音,并且按照4:1的比例随机分派给训练集和验证集,使用循环神经网络进行训练;RNN采用单层LSTM结构;输入为步骤3得到的26维MFCC语音特征,LSTM网络隐藏单元的维度设置为40,最后经过全连接层,通过softmax函数分类输出;LSTM模型通过细胞状态Ct来记录长时记忆,通过隐藏层状态ht来记录短时记忆,包含有三个“门”:遗忘门ft,输入门it与输出门ot;遗忘门ft决定从细胞状态中丢弃哪些信息,由ht-1与xt输出,计算表达如式18;其中σ表示sigmoid函数,Wf为权重矩阵,bf为偏置项;ft=σWf·[ht-1,xt]+bf18输入门it与长时记忆候选态决定在细胞状态中存储哪些信息,具体表达式如式19;Wi与WC为权重矩阵,bi与bC为偏置项; 更新细胞状态Ct,计算表达式如式20: 基于细胞状态Ct与输出门ot输出ht,计算表达式如式21;其中Wo为权重矩阵,bo为偏置项 设置好LSTM网络结构后,权重矩阵选择正交初始化,偏置项选择零初始化,使用BPTT更新策略进行训练,直至网络参数收敛为止;利用训练好的神经网络模型对待测语音的MFCC特征进行判别,判断哪一段语音含有目标语音,该语音分段的起始位置就是音频预警的发出时间。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:210096 江苏省南京市玄武区四牌楼2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。