首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于质量和韵律特征融合的古诗词朗读评估方法 

申请/专利权人:天津大学

申请日:2022-08-18

公开(公告)日:2024-05-14

公开(公告)号:CN115359782B

主分类号:G10L15/01

分类号:G10L15/01;G10L15/02;G10L15/16;G10L15/18

优先权:

专利状态码:有效-授权

法律状态:2024.05.14#授权;2022.12.06#实质审查的生效;2022.11.18#公开

摘要:本发明提出一种基于质量和韵律特征融合的古诗词朗读评估方法,包括建立基于MOS的客观语音质量评价模型,提取mel频谱特征,mask_res残差卷积网络提取信号高维度特征,UnMask输出模块聚合单个古诗词朗诵的MOS评分;建立基于特征融合韵律评价模型,提取基频、能量、过零率等信号基本特征,通过多特征分析模型,计算为轻重音、语调、节奏韵律特征参数,建立韵律评分函数,映射实际韵律得分;建立基于多项式拟合的综合度量体系基于最优解和最小化模型的目标,构建基于质量和韵律特征融合的无参考评价模型。

主权项:1.一种基于质量和韵律特征融合的古诗词朗读评估方法,其特征在于:包括如下步骤:(1)建立基于MOS的客观语音质量评价模型,通过提取mel频谱特征,用mask_res残差卷积网络提取信号高维度特征,在UnMask输出模块聚合单个古诗词朗诵的MOS评分;具体包括如下步骤:(11)特征提取,从输入信号中计算梅尔子帧,划分重叠段,补齐不同语音片段的长度,通过神经网络学习得到语谱图特征;(12)质量分析,根据步骤(11)得到的语谱图特征进行质量分析,以梅尔子帧为输入进行特征降维,对语音序列进行预测,具体为:使用残差卷积层网络提取高维度特征,在BasicBlock中向下卷积,实现3次特征降维,然后通过全连接层输出,设定输出特征维度为20,通过view实现输出扁平化;(13)自UnMask输出,根据步骤(12)得到的高维度特征进行UnMask输出,语音时间根据复原特征长度,特征聚合,估计出单个MOS值,具体为:首先根据之前记录的原始长度,得到UnMask掩膜并与特征向量对应位置上的unmask值相乘,完成去零操作,得到实际语音段长,然后通过最大池化层,对每个有效特征向量,取所有特征数的最大值,得到单个语音的MOS评分输出;(2)建立基于特征融合韵律评价模型,通过提取信号基本特征,按照多特征分析方法转化为轻重音、语调、节奏韵律特征,通过韵律评分函数映射为实际韵律得分;具体包括如下步骤:(21)韵律特征提取,对输入进行分帧,使用矩形窗,取N为0.05倍的采样率,计算古诗词的短时平均幅度函数、基音曲线,并提取函数曲线中的每个峰值,得到峰值的相对标准差,计算基频,并估计每一帧的倒谱,使用均值滤波平滑基频曲线,并微调阈值参数以标记主峰;(22)多特征分析,根据步骤(21)得到的韵律特征,计算特征参数,计算短期平均幅度的每个峰值的标准偏差,以反映声音的重音变化;计算每个相邻峰值时间间隔的相对标准差参数,以反映语音节奏特征;计算每个峰的相对标准差参数,反映读者对语调的处理方式;计算一首诗词中每个单词的音节长度的相对标准偏差,以反映音节的停顿或延长;计算静音时间,以反映朗读的停顿是否合理;(23)韵律评分模型,根据步骤(22)得到的特征参数,使用评分公式映射实际韵律评价分数: ; ;其中是对应特征参数的量化值,是映射分数的放大系数;将阅读样本的特征参数转化为百分制分数,根据最佳阅读样本的实验值制定参考值,对样本的不同特征打分,取其加权平均作为最终得分;(3)针对上述两个评价模型,基于多项式拟合建立基于质量和韵律特征融合的无参考古诗词朗读评估模型,利用该模型进行评分。

全文数据:

权利要求:

百度查询: 天津大学 一种基于质量和韵律特征融合的古诗词朗读评估方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。