首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于可变粒度特征的音频检索方法和装置_广州汇智通信技术有限公司_202410282560.4 

申请/专利权人:广州汇智通信技术有限公司

申请日:2024-03-13

公开(公告)日:2024-06-18

公开(公告)号:CN117877525B

主分类号:G10L25/54

分类号:G10L25/54;G10L19/02;G10L25/03;G06F16/683

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了一种基于可变粒度特征的音频检索方法和装置,方法包括当接收到待检索音频时,对待检索音频执行分帧提取,生成第一粒度的第一音频特征序列,并从待检索音频中筛选初始音频,响应接收到的多个语音模板,构建对应的特征查找地图,根据特征查找地图检索第一音频特征序列,根据第一检索结果从初始音频中选取中间音频,对中间音频执行分帧提取,生成第二粒度的第二音频特征序列,根据特征查找地图检索第二音频特征序列,根据第二检索结果定位目标语音。从而通过不同粒度的音频特征序列匹配语音模板的方式,以粗粒度排除海量非目标语音,细粒度完全匹配目标语音的方式,有效提高音频匹配的可靠性和准确度。

主权项:1.一种基于可变粒度特征的音频检索方法,其特征在于,包括:当接收到待检索音频时,对所述待检索音频执行分帧提取,生成第一粒度的第一音频特征序列,并从所述待检索音频中筛选初始音频;响应接收到的多个语音模板,构建对应的特征查找地图;根据所述特征查找地图检索所述第一音频特征序列,根据第一检索结果从所述初始音频中选取中间音频;对所述中间音频执行分帧提取,生成第二粒度的第二音频特征序列;根据所述特征查找地图检索所述第二音频特征序列,根据第二检索结果定位目标语音;粒度指的是音频特征序列中帧移的采样间隔点数;所述从所述待检索音频中筛选初始音频,包括:从所述待检索音频中选取音频能量值未小于预设能量阈值的语音帧信号,构建初始音频;所述响应接收到的多个语音模板,构建对应的特征查找地图,包括:响应接收到的多个语音模板,从各所述语音模板分别提取语音特征序列和模板标识;所述语音特征序列包括多个语音特征值;采用各所述语音特征值在所述语音特征序列中所处序列位置和所述模板标识,并关联所述语音特征值,生成特征查找地图。

全文数据:

权利要求:

百度查询: 广州汇智通信技术有限公司 一种基于可变粒度特征的音频检索方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。