一种基于深度学习的多声部音乐人声主旋律提取方法

导航：龙图腾网> 最新专利技术> 一种基于深度学习的多声部音乐人声主旋律提取方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：厦门大学

摘要：一种基于深度学习的多声部音乐人声主旋律提取方法，涉及深度学习领域和音频信号处理领域。包括以下步骤：1基于音高显著性的多声部音乐音频信号预处理：利用显著性函数中谐波求和，通过频谱图分析、相位谱计算、显著性图谱计算、归一化处理的步骤获得输入神经网络的数据特征；2基于多分类神经网络进行音高估算：将步骤1预处理方法中得出的显著性图谱作为神经网络的输入，通过一个用于分类的神经网络来估算逐帧的音高。集合传统方法中对音频特征分析的优势，能较好地提取出音频的音高显著性特征，同时结合深度学习的先进方法，搭建神经网络训练模型，在预测结果时比传统的计算方法要更加快速高效。

主权项：1.一种基于深度学习的多声部音乐人声主旋律提取方法，其特征在于包括以下步骤：1基于音高显著性的多声部音乐音频信号预处理：利用显著性函数中谐波求和，通过频谱图分析、相位谱计算、显著性图谱计算、归一化处理的步骤获得输入神经网络的数据特征；2基于多分类神经网络进行音高估算：将步骤1预处理方法中得出的显著性图谱作为神经网络的输入，通过一个用于分类的神经网络来估算逐帧的音高；所述基于多分类神经网络进行音高估算的具体步骤为：1标注处理：将多声部音乐人声旋律的提取作为一个分类问题，将连续的基频F0值量化为600个类，将音高范围设定从A1到A6之间的五个八度60个半音，即从55hz到1760hz的频率范围，覆盖常规的人声可达到音域，分辨率为110半音；另外添加一个类来表示非人声状态，共601个分类；将训练集的标注处理为两组数据，第一个数据将每帧对应的频率转化为601个类别的音高，表示为一个one-hot向量，使用分类交叉熵计算损失函数，第二个数据将每帧对应的频率处理为表示人声帧非人声帧的10标签，使用二分类交叉熵计算损失函数；2网络结构：负责音高估算的联合神经网络由1个卷积模块ConvBlock，2个ResNeXtBlock和1个池化模块PoolBlock组成，中间引入CBAM注意力机制模块，自适应地学习特征的权重分配，顶层加入一个双向长短期记忆神经网络Bi-LSTM来预测音高的输出；其中ConvBlock由两个3×3卷积层，一个激活函数LReLU层和一个批量归一化BN层组成的模块；PoolBlock是另一个由BN层、LReLU层、最大池化层组成的模块；ResNeXtBlock包含ConvBlock的结构，一个额外的LReLUBN层，一个池化大小为4的MaxPool层和一个跳跃连接skipconnection，根据ResNeXt网络原理构建；CBAM注意力机制包括空间注意力模块SAM和通道注意力模块CAM两个子模块，分别汇总空间和通道两方面的注意力信息，并将信息进行一定程度的综合；3损失函数：将音高多分类损失与语音检测损失相结合，计算出最终的损失函数L合计为：

全文数据：

权利要求：

百度查询：厦门大学一种基于深度学习的多声部音乐人声主旋律提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种潮气量检测系统及装置

下一篇：集中供暖设备

相关技术

一种潮气量检测系统及装置

集中供暖设备

基于磷光体的时间饱和的颜色可调的pcLED

基于大数据的深度神经网络构建音频数据搜索方法及系统

沸点检测方法、装置、存储介质、程序产品和烹饪设备

金属燃料电池与其他类型蓄电池的协同应用系统及方法

连接器和电子设备

一种数据加载方法、装置、电子设备及存储介质

一种避免结焦的草酸酯蒸发器及草酸酯气化方法

一种碳纤维纺丝前驱体及碳纤维的生产方法

一种数据传输方法、装置、设备及计算机可读存储介质

一种电子水泵噪声振动测试台架装置及噪声测试方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度学习的多声部音乐人声主旋律提取方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务