首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于AI语音识别的智能多媒体终端_深圳中洲卓越科技有限公司_202410461643.X 

申请/专利权人:深圳中洲卓越科技有限公司

申请日:2024-04-17

公开(公告)日:2024-06-14

公开(公告)号:CN118197309A

主分类号:G10L15/22

分类号:G10L15/22;G10L25/24;G10L15/02;G10L15/14

优先权:

专利状态码:在审-公开

法律状态:2024.06.14#公开

摘要:本发明公开了基于AI语音识别的智能多媒体终端,涉及智能终端技术领域。它包括:唤醒判断部分、身份鉴别部分、语音识别部分和多媒体控制部分;所述唤醒判断部分,用于实时采集周围环境的语音信息,发送第一控制命令至身份鉴别部分;所述身份鉴别部分,用于对语音信息进行特征识别,判断是否为特定用户;所述语音识别部分,对语音信息进行语音识别,得到语音控制指令;所述多媒体控制部分,用于根据语音控制指令,控制多媒体终端的运行。本发明实现了对语音单元的状态转移和观测概率建模,从而提高了语音识别的准确性、实时性和稳定性,为用户带来更智能、便捷的多媒体使用体验。

主权项:1.基于AI语音识别的智能多媒体终端,其特征在于,它包括:唤醒判断部分、身份鉴别部分、语音识别部分和多媒体控制部分;所述唤醒判断部分,用于实时采集周围环境的语音信息,首先对语音信息进行声源定位,获取声源距离多媒体终端的距离,若距离在小于设定的距离阈值,则检测语音信息的分贝值,并判断分贝值是否处于预设分贝区间,若是,则计算语音信息的长度是否在预设长度区间,若是则判断语音信息是否为人声,若为人声,则发送第一控制命令至身份鉴别部分;所述身份鉴别部分,用于对语音信息进行特征识别,判断是否为特定用户,若是,则发送第二控制命令至语音识别部分;所述语音识别部分,对语音信息进行语音识别,得到语音控制指令,具体包括:使用梅尔滤波器对语音信号进行频谱分析,得到频谱特征;将频谱特征转换为倒谱系数;构建动态贝叶斯网络作为声学模型,将倒谱系数建模为动态贝叶斯网络的状态转移过程;将倒谱系数映射到状态空间中,每个状态代表一个语音单元;使用动态贝叶斯网络进行推断,估计每个状态的后验概率,即给定观察序列条件下每个状态的概率分布;对动态贝叶斯网络的输出进行稀疏编码,将每个状态的后验概率表示为稀疏向量;将稀疏向量映射到词汇表中的单词,得到语音信息对应的词序列,作为语音控制指令;所述多媒体控制部分,用于根据语音控制指令,控制多媒体终端的运行。

全文数据:

权利要求:

百度查询: 深圳中洲卓越科技有限公司 基于AI语音识别的智能多媒体终端

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术