首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于正弦谐波模型的低速率语音编解码方法_桂林电子科技大学_202410397584.4 

申请/专利权人:桂林电子科技大学

申请日:2024-04-03

公开(公告)日:2024-06-21

公开(公告)号:CN118230741A

主分类号:G10L19/00

分类号:G10L19/00;G10L21/0208;G10L25/90;G10L25/51

优先权:

专利状态码:在审-公开

法律状态:2024.06.21#公开

摘要:本发明公开了一种基于正弦谐波模型的低速率语音编解码方法。该方法以语音参数编码技术为基础,在语音参数提取上,特别是在清浊音判决和基音参数提取做了改进,使合成语音具有较高的准确性和较强的鲁棒性;在合成端上,将随时间变化的参数数量减少为固定比特率所需的固定数量的参数,满足低速率语音编解码的应用情景;为了在不同的说话人和背景噪音条件下保持良好的性能,加入后置滤波算法和参数修正措施来抑制背景噪声。这种方法能够在高压缩效率、较低复杂度和低时延的同时保持较好的语音质量,并且具有一定的鲁棒性。

主权项:1.一种基于正弦谐波模型的低速率语音编解码方法,其特征在于,包括如下步骤:1首先对语音信号进行频域转换。对语音块信号做短时傅里叶变换STFT: 其中,k为频率点的位置,l为帧索引的位置。wn为窗函数,N为帧长,M为帧移。2提取模型参数。2-1提取语音帧的基音基频。基音参数提取分为三阶段。初步基音提取阶段,从输入语音的帧中确定一组候选值。首先,对时域的语音帧进行平方运算得到平方的时域信号s2n 之后,采用陷波滤波器去除s2n中的直流分量。再进行低通滤波,最后对信号进行抽取因子为5的抽取。经抽取后的信号进行加窗,并且通过用448个零对经抽取信号进行零填充来计算512点DFT的频谱Zk。再得到平方信号的功率谱Uk=|Zk|2,该局部最大值作为基音候选值ωv。后处理阶段,通过评估每个候选基频ωv处的成本函数Eωv来做出决策,选择最小值的Eωv的候选作为当前帧的基音估计。 其中,Emωv为原始语音和使用谐波模型合成的语音之间误差。基音估计细化阶段,对ω0进一步细化,增加估计的精度。该阶段提出一种低复杂度基音细化步骤。定义一个成本函数: 其中,Sw为该帧频谱。该函数简单地对该帧的加窗语音信号的功率谱进行采样,Sw的自变量四舍五入到最接近的整数。此步骤中,函数分两步采样。首先,在1个采样步骤中,在基音周期的正或负5个采样点的范围内对函数进行采样。然后,以0.25个采样步长,在基音周期的正负一个采样的范围内对函数进行采样。取最小的采样值即为最优估计的基音2-2清、浊音判决。本方法使用基于信噪比SNR对清浊音进行判定,并在判定后检查优化。用谐波模型估计的模型参数对此帧拟合,其拟合的结果映射在SNR上,SNR在频域的表达式为: 通过与固定阈值进行比较,固定阈值取6dB,即10lgSNR>6时,频带中的能量被确定为浊音,反之为清音。本方法应用低频与高频能量的比率,用于检验之前确定的清、浊音判决是否正确,若错误则更正。2-3线性预测系数提取。谐波幅度的直接量化需要大量的比特。本方法使用10阶线性预测,时域分析产生一组p个LPC系数{ak}和一个LPC增益函数G,用于在合成端生成谐波幅度,这些参数通过以下求得: 其中,sn为时域语音信号。通过Levinson-Durbin算法求解出{ak}。预测信号的能量E,可由线性预测系数ak和自相关函数Rk: 之后将线性预测系数ak转换成线谱对LSP形式。LSP通过求解p+1阶对称和反对称多项式的共轭复根得到。3对参数进行量化编码。对清浊音状态、基音ω0、预测信号能量E使用均匀标量量化。使用K-means矢量量化器设计算法训练出所需矢量量化器,之后对LSP参数进行量化编码。它一次量化多个值,只需一个索引即可引用这些值,并且可以考虑输入数据中的相关性。本方法还为低阶LSP分配了更多位,因为解码的语音质量对低阶LSP误差更敏感。对更高的LSP进行更粗的量化。4合成语音。合成语音之前需要对之前量化编码的参数进行解码。4-1确定用于合成语音信号的正弦幅度{Bm}。解码后的LSP参数,应用带宽扩展算法在这些线谱对上。之后对以上参数进行插值。插值后的线谱对LSPs转换为线性预测系数。对线性预测系数作傅里叶变换即可转换为频谱幅度采样然后我们从每个频带的平均能量E确定{Bm}。具体步骤是:首先,我们根据频谱求得功率谱 那么合成该信号的正弦曲线的第m谐波的能量可以表示为Em: 则Bm可得: 4-2运用基于清浊音状态和基于规则的方法来合成相位。时域中的脉冲串等效于频域中的谐波,每个谐波的相位可以被建模为由脉冲激励的LPC滤波器的相位。因为清音的相位倾向于随机相位,以下合成相位是在该帧为浊音状态下进行。由于本方法不传输这个模型的脉冲位置,需要对其进行合成。激发脉冲以ω0的速率出现,则谐波的相位会在一个合成帧80样本上前进80。那么令生成第一次谐波的激励相位为:argEx[1]=ω0*8012其中,Ex[1]是第一个复数激励频域样本,argz为求复数样本z的相位。然后,将第m个激励谐波的相位与第一次谐波的相位关联为:argEx[m]=m*argEx[1]1<m≤L13将得到的Ex[m]通过LPC合成滤波器确定最终谐波相位。为了提高在有背景噪声情况下造成错误,合成语音之前对相位参数修正。当平均能量e,低于阈值且该帧是清音,我们更新背景噪音估计 其中,β为背景噪音,且初始值为零。当该帧是浊音且谐波幅度Am小于阈值τ时,扰乱相位,使任何谐波小于背景估计值。4-3通过使用当前帧的正弦谐波模型参数即以上生成的模型参数来构建频域合成信号 其中,该信号表示合成语音信号的DFT,并且由间隔ω0的脉冲组成,ω0由复谐波振幅Am加权。4-4使用OM-LSA后置滤波器进一步降噪。降噪后的合成语音频谱估计值由通过一个谱增益滤波器Gk,l得到: 其中,为降噪后的信号,为频域合成的语音信号,Gk,l为谱增益滤波器。谱增益计算函数公式如下: 其中,ξk,l为先验信噪比,pk,l是语音存在概率,qk,l是语音不存在的概率。GH1为语音存在时的条件增益,Gmin为语音不存在时滤波器的增益下限。4-5重叠相加和逆傅里叶变换。为了重建连续的合成语音波形,需要平滑地连接相邻降噪后的合成语音频谱。这是通过对每个帧进行窗口化,然后使用重叠相加算法对相邻帧进行移位和叠加来执行。三角形窗口用于该算法,并且由以下定义: 最后进行逆傅里叶变换,恢复成时域信号。

全文数据:

权利要求:

百度查询: 桂林电子科技大学 一种基于正弦谐波模型的低速率语音编解码方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。