使用端到端模型的讲话者分割

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：谷歌有限责任公司

摘要：描述了用于训练和或利用端到端讲话者分割模型的技术。在各种实施方式中，该模型是递归神经网络RNN模型，诸如包括至少一个诸如长短期记忆LSTM层的记忆层的RNN模型。音频数据的音频特征可以作为输入应用于根据本文公开的实施方式训练的端到端讲话者分割模型，并且该模型被利用以处理音频特征以通过模型生成讲话者分割结果作为直接输出。此外，端到端讲话者分割模型可以是序列到序列模型，其中序列可以具有可变长度。因此，该模型可以被利用以为各种长度的音频分段中的任何一个生成讲话者分割结果。

主权项：1.一种用于训练递归神经网络RNN模型的方法，所述方法由一个或多个处理器实现，所述方法包括：识别训练实例，所述训练实例包括：对应音频数据的音频数据帧序列，和所述音频数据帧中的每一个的地面实况讲话者标签；对于所述音频数据帧中的每一个，并且在所述序列中：将所述音频数据帧的帧特征作为输入应用于RNN模型，以及使用所述RNN模型来处理所述音频数据帧的所述帧特征以生成输出，所述输出包括所述地面实况讲话者标签中的每一个的对应概率；根据以下来生成损失：所述音频数据帧的所生成的概率，和所述地面实况讲话者标签；以及基于所生成的损失来更新所述RNN模型的一个或多个权重以生成经训练的RNN模型，其中，生成所述损失包括通过对以下进行计算来将所生成的概率与所述地面实况讲话者标签进行比较：其中：L表示所述损失；N表示所述音频数据帧序列中的音频数据帧的数量；i表示行索引；j表示列索引；Mk表示从所述地面实况讲话者标签到所述音频数据帧的所生成的概率的二元映射；k表示所述二元映射的索引；表示所述音频数据帧的所生成的概率与所述地面实况讲话者标签之间的交叉熵张量；并且⊙表示矩阵逐元素乘法。

全文数据：

权利要求：

百度查询：谷歌有限责任公司使用端到端模型的讲话者分割

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于巷道断面传感器数据的平均风量预测方法及系统

下一篇：一种海表面温度预测方法及预测系统

相关技术

一种基于巷道断面传感器数据的平均风量预测方法及系统

一种海表面温度预测方法及预测系统

基于YOLO-v8模型的眼底视网膜病变检测与识别算法

悬架横梁实时仿真方法、装置、设备及介质

用于辅助机器人在室内环境中移动的视觉导航方法和装置

一组快速鉴定茶树品种的SSR引物组合及应用

一种垃圾入炉区垃圾清理系统以及清理方法

数据传输方法、装置、电子设备及存储介质

一种一体化激振装置

一种肾脏三维图像主对称面的估计方法

用于光储充的自动配电装置

一种足式机器人可伸缩支腿

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

使用端到端模型的讲话者分割

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务