首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

使用端到端模型的讲话者分割 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:谷歌有限责任公司

摘要:描述了用于训练和或利用端到端讲话者分割模型的技术。在各种实施方式中,该模型是递归神经网络RNN模型,诸如包括至少一个诸如长短期记忆LSTM层的记忆层的RNN模型。音频数据的音频特征可以作为输入应用于根据本文公开的实施方式训练的端到端讲话者分割模型,并且该模型被利用以处理音频特征以通过模型生成讲话者分割结果作为直接输出。此外,端到端讲话者分割模型可以是序列到序列模型,其中序列可以具有可变长度。因此,该模型可以被利用以为各种长度的音频分段中的任何一个生成讲话者分割结果。

主权项:1.一种用于训练递归神经网络RNN模型的方法,所述方法由一个或多个处理器实现,所述方法包括:识别训练实例,所述训练实例包括:对应音频数据的音频数据帧序列,和所述音频数据帧中的每一个的地面实况讲话者标签;对于所述音频数据帧中的每一个,并且在所述序列中:将所述音频数据帧的帧特征作为输入应用于RNN模型,以及使用所述RNN模型来处理所述音频数据帧的所述帧特征以生成输出,所述输出包括所述地面实况讲话者标签中的每一个的对应概率;根据以下来生成损失:所述音频数据帧的所生成的概率,和所述地面实况讲话者标签;以及基于所生成的损失来更新所述RNN模型的一个或多个权重以生成经训练的RNN模型,其中,生成所述损失包括通过对以下进行计算来将所生成的概率与所述地面实况讲话者标签进行比较: 其中:L表示所述损失;N表示所述音频数据帧序列中的音频数据帧的数量;i表示行索引;j表示列索引;Mk表示从所述地面实况讲话者标签到所述音频数据帧的所生成的概率的二元映射;k表示所述二元映射的索引; 表示所述音频数据帧的所生成的概率与所述地面实况讲话者标签之间的交叉熵张量;并且⊙表示矩阵逐元素乘法。

全文数据:

权利要求:

百度查询: 谷歌有限责任公司 使用端到端模型的讲话者分割

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。