一种用于远程视频会议的声源定位方法及系统

导航：龙图腾网> 最新专利技术> 一种用于远程视频会议的声源定位方法及系统

申请/专利权人：广东德远科技股份有限公司

申请日：2024-02-22

公开（公告）日：2024-06-28

公开（公告）号：CN118264906A

主分类号：H04N23/67

分类号：H04N23/67;H04N7/15

优先权：

专利状态码：在审-公开

法律状态：2024.06.28#公开

摘要：本发明涉及音频处理与通信技术领域，具体为一种用于远程视频会议的声源定位方法及系统，包括以下步骤：基于会议室环境，采用全向麦克风阵列，进行声音信号捕获，并进行多维数据格式化，生成多维声音数据。本发明中，全向麦克风阵列和多维数据格式化能够准确捕获会议室声音。梅尔频率倒谱系数算法提高声音特征提取效率，确保数据质量和可用性。最小方差无失真响应算法增强目标声源，提升清晰度和定位准确性。结合高斯混合模型和深度信念网络，实现声源识别和定位。到达时间差和到达角度差算法提高定位精确度。图像处理技术和焦点跟踪自动调整视频画面，使焦点始终在当前发言者上，提升视频会议用户体验和互动性。

主权项：1.一种用于远程视频会议的声源定位方法，其特征在于，包括以下步骤：基于会议室环境，采用全向麦克风阵列，进行声音信号捕获，并进行多维数据格式化，生成多维声音数据；基于所述多维声音数据，采用梅尔频率倒谱系数算法，进行特征提取，并进行声音特性编码，生成声音特征数据；基于所述声音特征数据，采用最小方差无失真响应算法，进行声源方向集中处理，生成定向声音信号；基于所述定向声音信号，采用高斯混合模型和深度信念网络，进行声源识别和定位，并进行模型匹配，生成声源识别与定位信息；基于所述声源识别与定位信息，采用到达时间差和到达角度差算法，进行精确定位，并进行三维坐标转换，生成3D声源坐标；基于所述3D声源坐标，采用图像处理技术，进行视频画面智能调整，并进行焦点跟踪，生成优化的会议视频画面；所述多维声音数据具体包括多方向的声音强度和频率信息，所述声音特征数据具体为对声音信号的频率、幅度进行编码的特征集，所述定向声音信号具体指目标声源方向增强输出声音信号，所述声源识别与定位信息包括声源身份与空间位置坐标，所述优化的会议视频画面具体为根据声源位置自动调整的、以发言者为中心的视频画面。

全文数据：

权利要求：

百度查询：广东德远科技股份有限公司一种用于远程视频会议的声源定位方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种生态护坡绿化模块

下一篇：一种用于3C零件组装的点胶设备

相关技术

一种生态护坡绿化模块

一种用于3C零件组装的点胶设备

一种用于塑料制品生产的表面加工装置

一种方便维护的色谱柱箱

一种仓库物资搬运装置

一种低交叉极化抑制的宽带UWB天线及穿戴设备

一种零部件加工的表面喷漆装置

一种梳棉机用棉条桶

一种砂浆压实装置

一种防滑型无纺布的裁剪装置

一种酶转化罐内部恒温搅拌机构

一种细分子印刷喷粉加工用研磨装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种用于远程视频会议的声源定位方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务