首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种用于远程视频会议的声源定位方法及系统 

申请/专利权人:广东德远科技股份有限公司

申请日:2024-02-22

公开(公告)日:2024-06-28

公开(公告)号:CN118264906A

主分类号:H04N23/67

分类号:H04N23/67;H04N7/15

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本发明涉及音频处理与通信技术领域,具体为一种用于远程视频会议的声源定位方法及系统,包括以下步骤:基于会议室环境,采用全向麦克风阵列,进行声音信号捕获,并进行多维数据格式化,生成多维声音数据。本发明中,全向麦克风阵列和多维数据格式化能够准确捕获会议室声音。梅尔频率倒谱系数算法提高声音特征提取效率,确保数据质量和可用性。最小方差无失真响应算法增强目标声源,提升清晰度和定位准确性。结合高斯混合模型和深度信念网络,实现声源识别和定位。到达时间差和到达角度差算法提高定位精确度。图像处理技术和焦点跟踪自动调整视频画面,使焦点始终在当前发言者上,提升视频会议用户体验和互动性。

主权项:1.一种用于远程视频会议的声源定位方法,其特征在于,包括以下步骤:基于会议室环境,采用全向麦克风阵列,进行声音信号捕获,并进行多维数据格式化,生成多维声音数据;基于所述多维声音数据,采用梅尔频率倒谱系数算法,进行特征提取,并进行声音特性编码,生成声音特征数据;基于所述声音特征数据,采用最小方差无失真响应算法,进行声源方向集中处理,生成定向声音信号;基于所述定向声音信号,采用高斯混合模型和深度信念网络,进行声源识别和定位,并进行模型匹配,生成声源识别与定位信息;基于所述声源识别与定位信息,采用到达时间差和到达角度差算法,进行精确定位,并进行三维坐标转换,生成3D声源坐标;基于所述3D声源坐标,采用图像处理技术,进行视频画面智能调整,并进行焦点跟踪,生成优化的会议视频画面;所述多维声音数据具体包括多方向的声音强度和频率信息,所述声音特征数据具体为对声音信号的频率、幅度进行编码的特征集,所述定向声音信号具体指目标声源方向增强输出声音信号,所述声源识别与定位信息包括声源身份与空间位置坐标,所述优化的会议视频画面具体为根据声源位置自动调整的、以发言者为中心的视频画面。

全文数据:

权利要求:

百度查询: 广东德远科技股份有限公司 一种用于远程视频会议的声源定位方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。