买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:厦门理工学院
摘要:本发明提供的基于上下文特征的音乐情感识别方法、装置、设备及介质,涉及人工智能技术领域,本发明方法通过对音乐样本数据集进行数据处理与特征提取后,采用深度置信网络DBN模型训练学习音乐的局部特征,得到DBN融合特征;构建特征金字塔,以提高模型对不同分辨率下的特征提取的准确性,得到多尺度融合DBN模型;再结合一定时间间隔的前后音乐片段的特征,计算出上下文特征值差,并根据特征值差,进行相邻片段之间的上下文特征融合,以修正模型对情感一致性的理解,最终得到音乐情感识别模型。本发明方法能够捕捉音乐不同层次的细节特征,提高了音乐特征提取与情感分类识别的效率。
主权项:1.一种基于上下文特征的音乐情感识别方法,其特征在于,包括:S1,获取样本数据集,其中,所述样本数据集包括不同情感标签分类的音频文件和歌词文本,所述不同情感标签包括激昂、快乐、悲伤与愤怒;S2,对所述样本数据集进行预处理,通过所述样本数据集的音频文件提取得到音频特征,通过所述样本数据集的歌词文本提取得到文本特征;S3,将所述音频特征和所述文本特征输入深度置信网络DBN模型进行特征融合训练,直至所述深度置信网络DBN模型的能量函数达到全局最小化,得到DBN融合特征值;其中,所述DBN融合特征值为所述能量函数的最优权重和偏置;S4,根据所述DBN融合特征值、所述音频特征和所述文本特征,按照设定的不同分辨率尺度,提取得到不同尺度的特征,并进行加权融合,得到特征金字塔,以捕获样本中的不同尺度的特征;并将所述特征金字塔的每一层的特征向量依次输入所述深度置信网络DBN模型进行训练,以修正DBN模型对不同分辨率下的特征提取的准确性,直至完成所述特征金字塔的所有特征的训练,得到多尺度融合DBN模型;其中,所述S4具体包括:S41,根据所述音频特征和所述文本特征,按照设定的不同时间尺度,提取得到不同尺度的特征;S42,根据所述DBN融合特征值,将所述不同尺度的特征进行加权,得到不同尺度排列的特征金字塔;所述特征金字塔的每一层代表一种尺度的特征;S43,将所述特征金字塔中每一层的特征向量分别输入所述深度置信网络DBN模型进行训练,以修正所述深度置信网络DBN模型对不同分辨率下的特征提取的准确性,补充所述DBN融合特征值,直至完成所述特征金字塔中所有尺度的特征,得到多尺度融合DBN模型与金字塔特征矩阵;S5,按照设定的时间步长对所述音频文件和所述歌词文本的每个片段进行滑窗提取,输入所述多尺度融合DBN模型,得到多尺度融合特征值,将每个片段内的多尺度融合特征值加权融合得到上下文特征;根据所述上下文特征,计算相邻片段之间的特征值差;根据所述特征值差,判断当前片段的多尺度融合特征值是否跟相邻片段的多尺度融合特征值进行融合,更新当前片段的融合特征值,用以解决片段之间的情感一致性问题,直至滑窗完成所有片段的上下文特征融合,得到基于上下文特征的金字塔模型;S6,对所述基于上下文特征的金字塔模型进行评估,当评估分数超过设定的阈值时,得到评估好的音乐情感识别模型;其中,评估计算表达式为: ;其中,评估分数F1表示精确率和召回率的调和平均,最大值是1,最小值是0,F1值越大,模型性能越好; ,表示精确率,x表示当前模型序号,n表示测试集中真正为正且预测为正的个体数,N表示测试集中所有被模型预测为正的个体数;R,表示召回率,M表示测试集中真正为正的个体数;S7,将音乐数据输入所述评估好的音乐情感识别模型,得到所述音乐数据的情感标签。
全文数据:
权利要求:
百度查询: 厦门理工学院 基于上下文特征的音乐情感识别方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。