基于深层时序特征表示的语种识别方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：哈尔滨理工大学

摘要：基于深层时序特征表示的语种识别方法，本发明涉及一种基于深层时序特征表示的语种识别方法，属于语种识别技术领域。本发明的目的是为了解决现有方法对语种识别的精度低的问题。过程为：步骤1、获取不同语种的音频数据集；分别对不同语种的音频数据集进行数据增强；将数据增强后的不同语种的音频数据集裁剪成同等长度音频数据，作为训练集；步骤2、构建深度学习模型，将步骤1的训练集输入深度学习模型进行训练，直至达到了设置的最大迭代次数，获得训练好的深度学习模型；所述深度学习模型依次包括预训练模型、时间池和全连接层；步骤3、将待测音频数据输入训练好的深度学习模型，获得待测音频数据的语种类别。

主权项：1.基于深层时序特征表示的语种识别方法，其特征在于：所述方法具体过程为：步骤1、获取不同语种的音频数据集；分别对不同语种的音频数据集进行数据增强；将数据增强后的不同语种的音频数据集裁剪成同等长度音频数据，作为训练集；步骤2、构建深度学习模型，将步骤1的训练集输入深度学习模型进行训练，直至达到了设置的最大迭代次数，获得训练好的深度学习模型；所述深度学习模型依次包括预训练模型、时间池和全连接层；步骤3、将待测音频数据输入训练好的深度学习模型，获得待测音频数据的语种类别；所述步骤1中数据增强为对不同语种的音频数据集中每一段音频数据进行数据增强，获得数据增强后的不同语种的音频数据集；数据增强包括添加噪声、速度增强、音量增强、音调增强、移动增强；所述步骤2中构建深度学习模型，将步骤1的训练集输入深度学习模型进行训练，直至达到了设置的最大迭代次数，获得训练好的深度学习模型；所述深度学习模型依次包括预训练模型、时间池和全连接层；具体过程为：步骤21、将步骤1的训练集输入到预训练模型，得到语音特征序列Tn；Tn＝[t1,t2,…,ti,…,tn]其中，ti∈RF是语音特征序列Tn中的第i个向量；F是潜在语音特征Tn的维度；步骤22、将步骤21得到的语音特征序列Tn输入到时间池中，得到语音特征向量μ；步骤23、将步骤22得到的语音特征向量μ输入到全连接层进行预测，得到预测结果即音频数据的语种类别；步骤24、重复执行步骤21至步骤24，直至达到了设置的最大迭代次数，获得训练好的深度学习模型；所述步骤21中预训练模型为wav2vec2-base；所述步骤22中时间池为CNNLT或FCLT；CNNLT依次包括特征表示层、池化层和网络层；特征表示层为一层卷积层；池化层为均值池化层；网络层为前馈神经网络；FCLT依次包括特征表示层、池化层和网络层；特征表示层为全连接层；池化层为均值方差池化层；网络层为前馈神经网络；所述CNNLT或FCLT的损失函数表达式为：其中，M为音频数据样本类别数量；为符号函数，取0或1，如果音频数据样本的真实类别等于c，则取1，否则取0；为时间池输出预测音频数据样本属于类别c的概率，N表示时间池输入音频数据样本总数，LT表示正则项，λ表示超参数；正则项LT表达式为：其中，ti、ti+1分别表示语音特征序列Tn中的第i、i+1个向量；n是语音特征序列Tn中包含的向量数量，μ表示语音特征向量，α表示容忍程度参数。

全文数据：

权利要求：

百度查询：哈尔滨理工大学基于深层时序特征表示的语种识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：棒料定长切割机

下一篇：一种建筑工程施工用提升装置

相关技术

棒料定长切割机

一种建筑工程施工用提升装置

一种人脸识别器的调节结构

一种微型CO₂捕集液化装置

一种设有外包透明管的机电安装吊杆结构

一种微波毫米环形器用的组装治具

一种甜菊糖苷浸泡组件

电芯、电池及用电设备

公路车放置架

定子铁芯、轴向磁通电机和车辆

一种燃气工程用管道定位设备

一种混凝土抗水检测装置

语种相关技术

多语种业务系统的访问结果展示方法和装置_北京京东远升科技有限公司_202410961932.6

语种识别方法、装置、电子设备及计算机可读存储介质_南方电网数字电网集团有限公司广东分公司_202410811614.1

语种识别模型的训练方法、装置、电子设备及存储介质_南方电网数字电网集团有限公司广东分公司_202410829654.9

基于多尺度信息的编-解码器结构的跨语种语音转换方法_南京邮电大学_202410920630.4

一种多语种地名全球智能定位方法、装置、介质及产品_中国测绘科学研究院_202410986971.1

自引导多语种硬笔字练习器系统及其数据库构建方法_刘冠福_202410565147.9

基于词表扩充的语种间语义对齐方法、装置及电子设备_中国科学院自动化研究所_202410691440.X

多语种测试数据生成方法、测试方法、装置、设备及介质_同盾科技有限公司_202410787801.0

基于字词识别的多语种证件的全页识别方法_盛视科技股份有限公司_202410635137.8

一种多语种文本生成方法、装置、设备及存储介质_科大讯飞股份有限公司_202111033454.5

识别相关技术

翻拍识别模型训练、图像识别方法、装置、设备及介质_中国平安人寿保险股份有限公司_202010142973.4

一种手势识别方法、手势识别装置及智能设备_深圳市优必选科技股份有限公司_202110194549.9

行人多目标跟踪识别方法及跟踪识别装置_青岛科技大学_202210581127.1

一种科技金融风险识别装置和识别方法_广东技术师范大学_202410688342.0

指纹识别装置、电子设备和指纹识别的方法_深圳市汇顶科技股份有限公司_202011563420.2

语音识别模型训练、语音识别方法、装置和电子设备_马上消费金融股份有限公司_202410034887.X

基于目标检测与人脸识别的考勤智能识别系统及方法_长春职业技术学院_202411017239.X

基于深度学习的电力设备故障识别方法及识别系统_中国长江电力股份有限公司_202410761437.0

识别模型训练、眼底特征的识别方法、装置、设备及介质_平安科技(深圳)有限公司_201910882247.3

内容风险识别方法和系统_支付宝(杭州)信息技术有限公司_202210767655.6

表示相关技术

一种基于多维表示的汉字识别方法_杭州电子科技大学_202411150460.2

一种基于稀疏表示的粒子滤波检测前跟踪方法及装置_大连海事大学_202210518957.X

基于神经元剪枝的隐式表示隐写方法_中国人民武装警察部队工程大学_202410854849.9

一种用于编码/解码表示3D对象的点云的方法和装置_交互数字VC控股公司_201980025241.2

基于上下文表示的多跳注意力网络的讽刺检测网络及检测方法_内蒙古民族大学_202311752789.1

用于存储器表示和管理的系统和方法_三星电子株式会社_202410266030.0

一种基于词嵌入的代码可视化表示创建方法及系统_广东工业大学_202410622117.7

基于图结构与矩阵表示的多模态加密流量分类方法_四川轻化工大学_202411103408.1

一种基于网络编程语言的逻辑表示的转换方法和装置_之江实验室_202410866695.5

基于深度稀疏表示网络的DNA结合蛋白识别方法_苏州科技大学_202210362641.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于深层时序特征表示的语种识别方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务