首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于图注意力网络的语音伪装情绪检测方法及装置_河北工业大学_202410280041.4 

申请/专利权人:河北工业大学

申请日:2024-03-12

公开(公告)日:2024-06-14

公开(公告)号:CN118197364A

主分类号:G10L25/63

分类号:G10L25/63;G10L25/30;G10L25/24

优先权:

专利状态码:在审-公开

法律状态:2024.06.14#公开

摘要:本发明涉及一种基于图注意力网络的语音伪装情绪检测方法及装置,所述方法包括:将接收的待检测语音输入预设语音检测模型的预训练的情感识别前端,输出待检测语音的深度情绪特征;将待检测语音的深度情绪特征输入预设语音检测模型的图融合层,将输出待检测语音的时序图和频谱图的组合图特征;将待检测语音的组合图特征输入预设语音检测模型的最大图运算层,输出待检测语音的最大图和堆栈节点;将待检测语音的最大图经过处理后与堆栈节点连接,输出待检测语音的隐藏层向量。通过采用基于图注意力网络的模型以及对抗训练的方法,即向训练数据中添加伪装情绪的语音,可以提升对语音中伪装情绪的检测能力,从而有效减少伪装情绪语音对社会的危害。

主权项:1.基于图注意力网络的语音伪装情绪检测方法,其特征在于,包括以下步骤:将接收的待检测语音输入预设语言检测模型的预训练的情感识别前端,输出待检测语音的深度情绪特征,其中,所述预训练的情感识别前端通过使用具有真实情绪的语音进行预训练得到,所述预设语音检测模型通过原始音频和具有伪装情绪的音频训练得到;将待检测语音的深度情绪特征输入预设语音检测模型的图融合层,输出待检测语音的时序图和频谱图的组合图特征;将待检测语音的组合图特征输入预设语音检测模型的最大图运算层,输出待检测语音的最大图和堆栈节点;将待检测语音的最大图经过处理后与堆栈节点连接,输出待检测语音的隐藏层向量;根据待检测语音的隐藏层向量确定待检测语音中的情绪为真实或伪装的检测结果,其中,所述情绪识别前端包括预训练的AlexNet编码器、双向长短期记忆编码器、预训练的wav2vec2模型和共注意力层,所述将接收的待检测语音输入预设语音检测模型的预训练情绪识别前端,输出待检测语音的深度情绪特征,包括:将接收的待检测的语音的梅尔倒谱系数序列输入双向长短期记忆编码器平坦化后得到待检测语音的梅尔倒谱系数特征;将接收的待检测的语音的频谱图输入到预训练的AlexNet编码器中进行整形后得到待检测语音的频谱图特征;将接收的待检测的语音的原始波形输入到预训练的wav2vec2模型中得到待检测语音的wav2vec2特征,将wav2vec2特征的不同帧与使用梅尔倒谱系数特征和频谱图特征生成的帧权重结合后得到加权的wav2vec2特征,最终将梅尔倒谱系数特征、频谱图特征和加权的wav2vec2特征连接后输出待检测的语义的深度情绪特征,其中所述图融合层包括图注意力层、图池化层,将待检测语音的深度情绪特征输入预设语音检测模型的图融合层,输出待检测语音的时序图和频谱图的组合图特征,包括:对待检测语音的深度情绪特征运用图注意力机制并进行图池化处理,并对处理后的时序图和频谱图的每个节点之间添加边来形成组合图特征,输出待检测语音的组合图特征,其中所述最大图运算层包括两个并行分支,每个分支包括两个顺序连接的异构堆栈图注意力层,每个异构堆栈图注意力层后都接入一个图池化层,每个分支中的两个异构堆栈图注意力层共享相同的堆栈节点,前一个异构堆栈图注意力层的堆栈节点传递给后一个异构堆栈图注意力层,将待检测语音的组合图特征输入最大图运算层,输出待检测语音的最大图和堆栈节点,包括:将待检测语音的组合图特征输入到两个并行分支中,每个分支对组合图特征应用带有异构堆栈节点的图注意力机制,并进行了图池化处理,最后对每个分支经过处理后的图特征和堆栈节点进行逐元素最大值处理,输出待检测语音的最大图和堆栈节点。

全文数据:

权利要求:

百度查询: 河北工业大学 基于图注意力网络的语音伪装情绪检测方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。