用于自然谈话话音系统的不流畅检测模型

导航：龙图腾网> 最新专利技术> 用于自然谈话话音系统的不流畅检测模型

申请/专利权人：谷歌有限责任公司

申请日：2022-08-26

公开（公告）日：2024-06-14

公开（公告）号：CN118202404A

主分类号：G10L15/16

分类号：G10L15/16;G10L15/18;G10L25/78;G10L15/22

优先权：["20211006 US 63/262,185"]

专利状态码：在审-实质审查的生效

法律状态：2024.07.02#实质审查的生效;2024.06.14#公开

摘要：一种方法500包括：接收表征一个或多个话语106的声学帧序列110。在多个时间步中的每一个时间步处，该方法还包括：由语音识别模型200的编码器网络220生成声学帧序列中的对应声学帧的高阶特征表示224；由语音识别模型的预测网络300生成对应非空白符号序列252的隐藏表示350，该对应非空白符号序列252由语音识别模型的最终softmax层250输出；以及由语音识别模型的第一联合网络210生成对应时间步对应于停顿和语音结束的概率分布，该第一联合网络210接收由编码器网络生成的高阶特征表示和由预测网络生成的稠密表示。

主权项：1.一种计算机实现的方法500，所述计算机实现的方法500在数据处理硬件610上被执行时，使所述数据处理硬件610执行操作，所述操作包括：接收表征一个或多个话语106的声学帧序列110；以及在多个时间步中的每一个时间步处：由语音识别模型200的编码器网络220生成所述声学帧序列110中的对应声学帧的高阶特征表示224；由所述语音识别模型200的预测网络300生成对应非空白符号序列252的隐藏表示350，所述对应非空白符号序列252由所述语音识别模型200的最终softmax层250输出；以及由所述语音识别模型200的第一联合网络210生成该对应时间步对应于停顿和语音结束的概率分布，所述第一联合网络210接收由所述编码器网络220生成的所述高阶特征表示224和由所述预测网络300生成的所述隐藏表示350。

全文数据：

权利要求：

百度查询：谷歌有限责任公司用于自然谈话话音系统的不流畅检测模型

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种连续制备五氯化磷的装置

下一篇：用于储能元件的转换器及电源系统

相关技术

一种连续制备五氯化磷的装置

用于储能元件的转换器及电源系统

一种隔音效果好的橡塑制品

电芯和电子设备

一种泡菜水检测用的取样装置

气动搬运平台

一种NB模组驱动的摄像采集装置

混料搅拌装置

一种用于3C零件组装的点胶设备

一种隐框式岩板蜂窝复合板

电池的装配结构、圆柱电池、电池模组和电池包

一种自动开盖的压力烹饪器具

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

用于自然谈话话音系统的不流畅检测模型

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务