首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于时空表征说话人追踪的话语交互行为分析方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华中师范大学

摘要:本发明属于语音分析技术领域,公开了一种基于时空表征说话人追踪的课堂话语交互行为分析系统,包括:课堂音频说话人特征抽取,得到初步声纹特征;设计深度神经编码器网络对所提取的特征提取深层次的时序特征表示并引入滤波器模块对特征中存在的噪音无效特征进行过滤;设计卷积神经网络提取音频中存在的局部空间特征;将两种特征融合起来得到时空表征向量并输入说话者数量估计模块,估计存在的说话者数量;利用存在的说话者数量向量与时空表征向量得到预测结果,并利用损失函数优化模型,通过所述模型输出最终语段中说话人身份的帧级预测结果,最终按照帧的预设时间,得到课堂说话人的追踪结果。本发明实现了课堂场景中更为精准的说话者身份预测,并能有效处理课堂场景中存在噪音和说话者数量未知的情景,更加具有普适性,此外,本发明在改进说话人追踪技术的基础上,通过引入社会网络分析法来构建课堂交互网络,以此来实现对课堂话语交互的自动化分析。

主权项:1.一种基于时空表征说话人追踪的课堂话语交互行为分析方法,其特征在于,包括:步骤一,课堂数据收集和特征抽取1课堂数据收集:利用相关公开数据集通过拼接,加噪等方式模拟课堂数据集,并按照比例划分训练集和测试集;2把长音频作为输入,从中抽取课堂说话人的帧级声纹特征fs;步骤二,全局特征编码和空间局部特征编码1全局特征编码:设计深度编码器网络对特征fs进行编码,获取深层全局时序特征嵌入fTemb;2设计空洞卷积网络来提取声纹特征向量fs中所包含的局部空间信息,从中进行跨帧提取和学习有用的空间局部特征表示fCemb;步骤三,滤波操作1设计波器模块;首先将提取的深层特征嵌入fTemb通过快速傅里叶变换FFT转换到频域;2设计一个可学习的滤波器将复数权重张量与傅里叶变换后的输入特征张量进行逐元素相乘,有效地降低来自记录数据的噪音,从而实现语音增强的目的;3最后再进行逆傅里叶IFFT操作,将信号转换回时域,从而得到更清晰的项嵌入向量fFemb;步骤四:时空特征融合与说话人数量估计1时空特征融合:将经过滤波操作得到的嵌入向量fFemb与fCemb相加,得到时空特征表示emb;2吸引子向量估计:设计长短时记忆网络对时空表征emb进行编码,并将其通过设计好的长短时记忆解码网络来进行解码操作,得到吸引子向量,吸引子向量的个数即代表可能存在的说话人的数量;步骤五:预测结果将通过长短时记忆解码网络得到的吸引子向量与得到的时空特征表示相乘,并通过sigmoid函数将其映射到0-1之间,表示对应说话者的概率,从而得到预测结果;步骤六,模型训练与优化1利用交叉熵函数计算吸引子存在概率和真实说话者标签之间的损失;2结合预测结果和说话人标签向量利用交叉熵函数计算相应的损失;3最后结合两大损失进行联合训练;步骤七,测试结果预测以及分析1模型训练完毕后,对测试音频做逐帧处理,输入模型中进行预测,得到追踪结果;2利用社会网络分析方法来构建课堂交互网络,利用图结构来构建交互网络图,其中节点代表说话人学生or老师,边代表说话人之间的交互,边的权值代表交互次数,以此来对该课堂的交互行为进行分析,并生成可视化地报告供老师和学生复盘,从而促进老师更好地改进教学方法,学生更加了解自己的课堂表现。

全文数据:

权利要求:

百度查询: 华中师范大学 基于时空表征说话人追踪的话语交互行为分析方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。