申请/专利权人:江西广播电视网络传媒有限公司
申请日:2024-05-16
公开(公告)日:2024-06-14
公开(公告)号:CN118197324A
主分类号:G10L17/14
分类号:G10L17/14;G10L15/16;G10L15/26
优先权:
专利状态码:在审-公开
法律状态:2024.06.14#公开
摘要:本发明提供了对话语料提取方法、系统、计算机及存储介质,所述方法包括获取当前对话数据,对所述当前对话数据进行预处理,以得到当前语音数据;利用单轮非自回归模型对所述当前语音数据进行识别,利用时延自注意力机制对所述对话文字进行标点预测;利用音频处理器根据标点预测出现的时间将所述当前语音数据分割为多个音频数据,利用ResNet34网络模型对每一所述音频数据进行声纹特征提取,得到每一句所述对话文字的声纹特征;对每一句所述对话文字的声纹特征进行聚类分析,以得到所述声纹特征的聚类簇,基于所述聚类簇及标点后的所述对话文字,输出每一人对应的对话语料文档,自适应不确定多少说话人的各种场景。
主权项:1.一种对话语料提取方法,其特征在于,所述方法包括:获取当前对话数据,对所述当前对话数据进行预处理,以得到当前语音数据;利用单轮非自回归模型对所述当前语音数据进行识别,以得到所述当前语音数据中的对话文字;利用时延自注意力机制基于所述对话文字的当前词及所述当前词的短时间窗口内的未来单词对所述对话文字进行标点预测,并输出标点后的所述对话文字;利用音频处理器根据标点预测出现的时间将所述当前语音数据分割为多个音频数据,且使多个所述音频数据分别对应标点后的每一句所述对话文字,利用ResNet34网络模型对每一所述音频数据进行声纹特征提取,得到每一句所述对话文字的声纹特征;对每一句所述对话文字的声纹特征进行聚类分析,以得到所述声纹特征的聚类簇,基于所述聚类簇及标点后的所述对话文字,输出每一人对应的对话语料文档。
全文数据:
权利要求:
百度查询: 江西广播电视网络传媒有限公司 对话语料提取方法、系统、计算机及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。