买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:李伟
摘要:本发明提供一种基于音频特征的最适歌唱音域检测方法,包括以下步骤:A、构建歌声数据库:录制演唱者跟随钢琴伴奏的清唱音阶数据,进行有声片段检测,去除空白部分,形成歌唱片段;B、对歌唱片段进行音符级别音域与发声质量的等级标注:C、提取歌唱片段的经典音频特征和深度音频特征;D、训练最适音域检测模型:E、通过对上述音阶内各音符分类结果的计算,检测并判断演唱者的最适歌唱音域。本发明综合判断各音符级别音区的发声质量,如气息是否稳定、音色是否饱满等因素,进行最适音域检测。
主权项:1.一种基于音频特征的最适歌唱音域检测方法,其特征在于其检测方法包括以下步骤:A、构建歌声数据库:录制演唱者跟随钢琴伴奏的清唱音阶数据,进行有声片段检测,去除空白部分,形成歌唱片段;B、对歌唱片段进行音符级别音域与发声质量的等级标注:C、提取歌唱片段的经典音频特征和深度音频特征;D、训练最适音域检测模型:使用步骤(A)中所述的演唱者歌声数据集训练机器学习分类模型,通过输入的经典音频特征和深度音频特征对音符级别内的音频进行音域合适度的分类;E、通过对上述音阶内各音符分类结果的计算,检测并判断演唱者的最适歌唱音域;所述步骤(A)中,录制清唱音阶数据时,采用16bit量化、44.1kHz采样、WAV格式记录音频文件,要求演唱者先从中音区开始,跟随钢琴演奏的半音阶向高音区逐个演唱长音,至自身最高音高极限,然后再跟随钢琴演奏的半音阶,向下演唱至最低音高极限;所述步骤(B)具体为,将歌声数据库中的半音阶演唱数据分割为音符级别片段,每个音的长度在0.5-1.2s之间;对每个音符级别片段进行标注,标注“音域合适发声质量好”为类别代码2、“音域不合适发声质量一般”为类别代码1、“音域不合适破音”为类别代码0;所述步骤(C)中,所述经典音频特征分为音高、能量、音色三类,总计包含134维特征;其中音高特征2维,包括音高数组的标准差与基频抖动率;能量特征3维,包括短时幅度均值、标准差与振幅扰动度;音色特征129维,包括谱特征:SPR、谱质心,声道特征:LPC、LPCC,人耳感知类特征:MFCC、△MFCC、PLP,在每个音频提取6种音色特征后,除计算均值外,还计算其每一维的标准差,共得到129维音色特征;所述步骤(C)中,所述深度音频特征是采用五层卷积神经网络产生的5*32=160维深度音频特征连接构成。
全文数据:
权利要求:
百度查询: 李伟 一种基于音频特征的最适歌唱音域检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。