【发明公布】一种基于正弦谐波模型的低速率语音编解码方法_桂林电子科技大学_202410397584.4

导航：龙图腾网> 最新专利技术> 一种基于正弦谐波模型的低速率语音编解码方法_桂林电子科技大学_202410397584.4

申请/专利权人：桂林电子科技大学

申请日：2024-04-03

公开（公告）日：2024-06-21

公开（公告）号：CN118230741A

主分类号：G10L19/00

分类号：G10L19/00;G10L21/0208;G10L25/90;G10L25/51

优先权：

专利状态码：在审-公开

法律状态：2024.06.21#公开

摘要：本发明公开了一种基于正弦谐波模型的低速率语音编解码方法。该方法以语音参数编码技术为基础，在语音参数提取上，特别是在清浊音判决和基音参数提取做了改进，使合成语音具有较高的准确性和较强的鲁棒性；在合成端上，将随时间变化的参数数量减少为固定比特率所需的固定数量的参数，满足低速率语音编解码的应用情景；为了在不同的说话人和背景噪音条件下保持良好的性能，加入后置滤波算法和参数修正措施来抑制背景噪声。这种方法能够在高压缩效率、较低复杂度和低时延的同时保持较好的语音质量，并且具有一定的鲁棒性。

主权项：1.一种基于正弦谐波模型的低速率语音编解码方法，其特征在于，包括如下步骤：1首先对语音信号进行频域转换。对语音块信号做短时傅里叶变换STFT：其中，k为频率点的位置，l为帧索引的位置。wn为窗函数，N为帧长，M为帧移。2提取模型参数。2-1提取语音帧的基音基频。基音参数提取分为三阶段。初步基音提取阶段，从输入语音的帧中确定一组候选值。首先，对时域的语音帧进行平方运算得到平方的时域信号s2n 之后，采用陷波滤波器去除s2n中的直流分量。再进行低通滤波，最后对信号进行抽取因子为5的抽取。经抽取后的信号进行加窗，并且通过用448个零对经抽取信号进行零填充来计算512点DFT的频谱Zk。再得到平方信号的功率谱Uk＝|Zk|2，该局部最大值作为基音候选值ωv。后处理阶段，通过评估每个候选基频ωv处的成本函数Eωv来做出决策，选择最小值的Eωv的候选作为当前帧的基音估计。其中，Emωv为原始语音和使用谐波模型合成的语音之间误差。基音估计细化阶段，对ω0进一步细化，增加估计的精度。该阶段提出一种低复杂度基音细化步骤。定义一个成本函数：其中，Sw为该帧频谱。该函数简单地对该帧的加窗语音信号的功率谱进行采样，Sw的自变量四舍五入到最接近的整数。此步骤中，函数分两步采样。首先，在1个采样步骤中，在基音周期的正或负5个采样点的范围内对函数进行采样。然后，以0.25个采样步长，在基音周期的正负一个采样的范围内对函数进行采样。取最小的采样值即为最优估计的基音2-2清、浊音判决。本方法使用基于信噪比SNR对清浊音进行判定，并在判定后检查优化。用谐波模型估计的模型参数对此帧拟合，其拟合的结果映射在SNR上，SNR在频域的表达式为：通过与固定阈值进行比较，固定阈值取6dB,即10lgSNR＞6时，频带中的能量被确定为浊音，反之为清音。本方法应用低频与高频能量的比率，用于检验之前确定的清、浊音判决是否正确，若错误则更正。2-3线性预测系数提取。谐波幅度的直接量化需要大量的比特。本方法使用10阶线性预测，时域分析产生一组p个LPC系数{ak}和一个LPC增益函数G，用于在合成端生成谐波幅度，这些参数通过以下求得：其中，sn为时域语音信号。通过Levinson-Durbin算法求解出{ak}。预测信号的能量E，可由线性预测系数ak和自相关函数Rk：之后将线性预测系数ak转换成线谱对LSP形式。LSP通过求解p+1阶对称和反对称多项式的共轭复根得到。3对参数进行量化编码。对清浊音状态、基音ω0、预测信号能量E使用均匀标量量化。使用K-means矢量量化器设计算法训练出所需矢量量化器，之后对LSP参数进行量化编码。它一次量化多个值，只需一个索引即可引用这些值，并且可以考虑输入数据中的相关性。本方法还为低阶LSP分配了更多位，因为解码的语音质量对低阶LSP误差更敏感。对更高的LSP进行更粗的量化。4合成语音。合成语音之前需要对之前量化编码的参数进行解码。4-1确定用于合成语音信号的正弦幅度{Bm}。解码后的LSP参数，应用带宽扩展算法在这些线谱对上。之后对以上参数进行插值。插值后的线谱对LSPs转换为线性预测系数。对线性预测系数作傅里叶变换即可转换为频谱幅度采样然后我们从每个频带的平均能量E确定{Bm}。具体步骤是：首先，我们根据频谱求得功率谱那么合成该信号的正弦曲线的第m谐波的能量可以表示为Em：则Bm可得： 4-2运用基于清浊音状态和基于规则的方法来合成相位。时域中的脉冲串等效于频域中的谐波，每个谐波的相位可以被建模为由脉冲激励的LPC滤波器的相位。因为清音的相位倾向于随机相位，以下合成相位是在该帧为浊音状态下进行。由于本方法不传输这个模型的脉冲位置，需要对其进行合成。激发脉冲以ω0的速率出现，则谐波的相位会在一个合成帧80样本上前进80。那么令生成第一次谐波的激励相位为：argEx[1]＝ω0*8012其中，Ex[1]是第一个复数激励频域样本，argz为求复数样本z的相位。然后，将第m个激励谐波的相位与第一次谐波的相位关联为：argEx[m]＝m*argEx[1]1＜m≤L13将得到的Ex[m]通过LPC合成滤波器确定最终谐波相位。为了提高在有背景噪声情况下造成错误，合成语音之前对相位参数修正。当平均能量e，低于阈值且该帧是清音，我们更新背景噪音估计其中，β为背景噪音，且初始值为零。当该帧是浊音且谐波幅度Am小于阈值τ时，扰乱相位，使任何谐波小于背景估计值。4-3通过使用当前帧的正弦谐波模型参数即以上生成的模型参数来构建频域合成信号其中，该信号表示合成语音信号的DFT，并且由间隔ω0的脉冲组成，ω0由复谐波振幅Am加权。4-4使用OM-LSA后置滤波器进一步降噪。降噪后的合成语音频谱估计值由通过一个谱增益滤波器Gk,l得到：其中，为降噪后的信号，为频域合成的语音信号，Gk,l为谱增益滤波器。谱增益计算函数公式如下：其中，ξk,l为先验信噪比，pk,l是语音存在概率，qk,l是语音不存在的概率。GH1为语音存在时的条件增益，Gmin为语音不存在时滤波器的增益下限。4-5重叠相加和逆傅里叶变换。为了重建连续的合成语音波形，需要平滑地连接相邻降噪后的合成语音频谱。这是通过对每个帧进行窗口化，然后使用重叠相加算法对相邻帧进行移位和叠加来执行。三角形窗口用于该算法，并且由以下定义：最后进行逆傅里叶变换，恢复成时域信号。

全文数据：

权利要求：

百度查询：桂林电子科技大学一种基于正弦谐波模型的低速率语音编解码方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种低漏电流层积电容器的化成铝箔的处理工艺和层积电容器_肇庆绿宝石电子科技股份有限公司_202210484604.2

下一篇：一种智能机械抓手_陇芯微(西安)电子科技有限公司_202111591327.7

相关技术

一种低漏电流层积电容器的化成铝箔的处理工艺和层积电容器_肇庆绿宝石电子科技股份有限公司_202210484604.2

一种智能机械抓手_陇芯微(西安)电子科技有限公司_202111591327.7

一种针对空中目标的雷达可探测性评价方法_中国人民解放军63921部队_202210250664.8

一种艾灸熏蒸废气处理工艺_成都天田医疗电器科技有限公司_202210550591.4

一种Invar合金焊丝及其制备、焊接方法_西安钢研功能材料股份有限公司_202311708375.9

利拉鲁肽的合成_拜康有限公司_201780086325.8

AGV磁寻迹偏移量计算方法、存储介质及AGV_广东嘉腾机器人自动化有限公司_202111406161.7

烤烟烟叶面积的测量方法及系统_河南启迪睿视智能科技有限公司_202210505490.5

一种磁性吸附材料及其制备方法和应用_国家粮食和物资储备局科学研究院_202310376075.9

一种可变任意尺寸模具的挤吹机及其挤吹工艺_晋江里弗兰新材料有限公司_202410445743.3

一种物联网设备自动化测试系统、方法、存储介质及设备_成都秦川物联网科技股份有限公司_202210603550.7

一种弯管内壁自动行走激光堆焊增材设备_广东博盈特焊技术股份有限公司_202410354772.9

速率相关技术

提高Cu CMP首片晶圆研磨速率的方法_上海华力集成电路制造有限公司_202410535583.1

一种熔体流动速率检测装置_扬州市源峰检测设备有限公司_202410357028.4

一种基于声发射的阀门内漏速率检测方法_重庆大学_202210093163.3

一种可控CO释放速率的化合物及其制备方法_西安交通大学医学院第一附属医院_202210987192.4

基于分段编码脉冲调制的高速率光子回波信号产生方法_天津理工大学_202111074912.X

一种冰川前缘松散物质累积速率的计算方法_中国电建集团西北勘测设计研究院有限公司_202410651117.X

一种火电机组负荷响应速率提升的优化方法_西安热工研究院有限公司_202410314778.3

基于模型融合的甲烷水合物生成速率预测方法及系统_中国石油化工股份有限公司_202011100237.9

一种光网络接入设备速率监控系统及方法_微网优联科技(成都)有限公司_202410663769.5

一种高功效广义上行异步NOMA的可达速率分析方法_南京航空航天大学_202210159456.7

低相关技术

一种低振低噪型剑杆织机_淄博海润丝绸发展有限公司_202421142780.9

一种低应力低收缩高可靠性环氧塑封料_江苏科麦特科技发展有限公司_202410497142.7

B/E型低光强障碍灯_江苏光启新能源科技有限公司_202323408203.8

低延迟介质访问控制安全认证_微芯片技术股份有限公司_202180006580.3

低折射率光学树脂_明基材料股份有限公司_202211647789.0

一种低噪组件_陕西延长中煤榆林能源化工股份有限公司_202322886806.2

低维护自充氧过滤装置_无锡百诺可科技有限公司_202311806880.7

低氮烟气内循环燃烧装置_广州市圆达炉用燃烧器有限公司_202311463256.1

一种低含量表面低聚物的聚酯纤维及其制备方法_滁州霞客无染彩色纺有限公司_202410277808.8

一种低脂低卡无藻腥味的微藻蛋白饮品及其制备方法_深圳元育生物科技有限公司_202410526690.8

语音相关技术

无声语音检测_库伊有限公司_202280052345.4

语音输入方法、记录介质以及语音输入装置_松下控股株式会社_202010211028.5

语音分离模型的训练方法和装置、语音分离方法_安徽大学_202410139135.X

基于语音质量分级模型的变速率语音编码方法及系统_山东省计算中心(国家超级计算济南中心)_202410423860.X

语音识别方法及相关产品_北京欧珀通信有限公司_202211598510.4

电子设备及其语音识别方法_三星电子株式会社_202410372004.6

一种离线语音中控面板_重庆智信物联网科技有限公司_202322876706.1

一种基于语音识别的智能搬运小车_中科复欣智能技术(成都)有限公司_202322261565.2

支持听不见的水印的文本到语音框架_百度(美国)有限责任公司_202010540510.3

语音翻译方法、系统、设备及存储介质_西安通立软件开发有限公司_202410108657.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】一种基于正弦谐波模型的低速率语音编解码方法_桂林电子科技大学_202410397584.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务