首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于双域深度特征和注意力机制的语音裁剪痕迹定位方法_深圳大学_202111604021.0 

申请/专利权人:深圳大学

申请日:2021-12-24

公开(公告)日:2024-06-11

公开(公告)号:CN114387977B

主分类号:G10L17/04

分类号:G10L17/04;G10L25/03;G10L25/30;G10L25/48

优先权:

专利状态码:有效-授权

法律状态:2024.06.11#授权;2022.05.17#实质审查的生效;2022.04.22#公开

摘要:本发明公开了基于双域深度特征和注意力机制的语音裁剪痕迹定位方法,包括:获取语音信号,对语音信号解压缩以及分帧处理,并计算每一语音帧的离散余弦变换,得到每一语音帧的离散余弦变换系数;通过一维卷积神经网络的特征提取子网络,提取每一语音帧的时域深度特征;通过基于胶囊网络的特征提取子网络,提取每一语音帧离散余弦变换域的频域深度特征;通过特征融合全连接层对每一语音帧的双域深度特征进行拼接融合,得到每一语音帧的融合深度特征;通过基于多头注意力机制的定位模块,捕捉融合深度特征的上下文信息,对裁剪语音中的自适应滤波痕迹进行定位。实现快速检测一段可疑录音上是否存在裁剪痕迹,并对裁剪区域进行定位。

主权项:1.一种基于双域深度特征和注意力机制的语音裁剪痕迹定位方法,其特征在于,所述基于双域深度特征和注意力机制的语音裁剪痕迹定位方法包括:S1.获取需要进行裁剪痕迹检测定位的语音信号,对所述语音信号解压缩以及分帧处理,并计算每一语音帧的离散余弦变换,得到每一语音帧的离散余弦变换系数;S2.通过训练的基于一维卷积神经网络的特征提取子网络,提取每一语音帧的时域深度特征;S3.通过训练的基于胶囊网络的特征提取子网络,提取每一语音帧离散余弦变换域的频域深度特征;S4.通过训练的特征融合全连接层对每一语音帧的时域深度特征和频域深度特征进行拼接融合,得到每一语音帧的融合深度特征;S5.通过训练的基于多头注意力机制的定位模块,捕捉所述融合深度特征的上下文信息,对裁剪语音中的自适应滤波痕迹进行定位;所述通过训练的基于一维卷积神经网络的特征提取子网络,提取每一语音帧的时域深度特征的步骤包括:预先构造一基于一维卷积神经网络的特征提取子网络,其网络结构包括一个卷积核被初始化为[-1,2,-1]的高通滤波层以及五个卷积模块;训练时,在所述基于一维卷积神经网络的特征提取子网络的顶部设置一个分类器以及一个回归器同时对网络进行训练,其中所述分类器由两个全连接层、一个BN层、一个ReLU激活函数以及一个softmax函数组成,所述回归器则由一个全连接层以及一个sigmoid激活函数组成;并通过下述损失函数对网络进行训练: ,其中,所述为输入的语音帧的类别与分类器预测的类别之间的交叉熵,而为输入语音帧与重构输出的均方差,是一个可调节的权值;基于训练完成的所述基于一维卷积神经网络的特征提取子网络,获取每一语音帧的512维时域深度特征;所述通过训练的基于胶囊网络的特征提取子网络,提取每一语音帧离散余弦变换域的频域深度特征的步骤包括:预先构造一基于胶囊网络的特征提取子网络,其网络结构包括一个卷积核被初始化为[-1,2,-1]的高通滤波层、6个稠密连接块、一个胶囊块以及一个全连接层,其中,;训练时,在所述基于胶囊网络的特征提取子网络顶部设置一个分类器搭配二分类的交叉熵对网络进行训练,其中,所述分类器由1个BN层、1个ReLU激活函数、一个全连接层以及一个softmax激活函数组成;基于训练完成的所述基于胶囊网络的特征提取子网络,通过所述稠密连接块捕捉不同邻域范围内的离散余弦变换系数的幅值变化,并将输出作为所述胶囊块的输入;通过所述胶囊块的特征提取,输出一个的特征向量,再通过全连接层将所述特征向量映射为每一语音帧的512维频域深度特征;所述通过训练的基于多头注意力机制的定位模块,捕捉所述融合深度特征的上下文信息,对裁剪语音中的自适应滤波痕迹进行定位的步骤包括:预先构造一基于多头注意力机制的定位模块,包括一个嵌入层、一个位置编码层、一个丢弃层、N个多头注意力模块、一个全连接层以及一个softmax函数;训练时,通过加权的交叉熵对定位模块进行训练,其损失函数如下: ,其中,表示训练数据中所有语音帧的数量,表示数据的真实标签,表示所述定位模块的预测概率,权值通过计算原始训练集中原始语音帧的数量与篡改语音帧的数量的比值得到;基于训练完成的所述基于多头注意力机制的定位模块,获取连续帧的融合深度特征进行计算,输出维度为的判决矩阵,其中,每帧的2维判决矩阵分别表示当前帧属于原始帧的概率以及属于篡改帧的概率;根据所述判决矩阵,输出每一语音帧为原始帧和或篡改帧的概率值;基于所述概率值,得到所有篡改帧的定位。

全文数据:

权利要求:

百度查询: 深圳大学 基于双域深度特征和注意力机制的语音裁剪痕迹定位方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。