首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种蒙古语语音数据选择方法及系统_内蒙古工业大学_202310483166.2 

申请/专利权人:内蒙古工业大学

申请日:2023-05-04

公开(公告)日:2024-06-14

公开(公告)号:CN116705001B

主分类号:G10L15/00

分类号:G10L15/00;G10L15/06;G10L15/16

优先权:

专利状态码:有效-授权

法律状态:2024.06.14#授权;2023.09.22#实质审查的生效;2023.09.05#公开

摘要:本发明公开了一种蒙古语语音数据选择方法及系统,涉及语音识别技术领域,本发明将困惑度与可信度两种选择机制优势互补,对伪标注数据的语义组合关系正确性和声学特征匹配正确性同时进行评价,解决蒙古语伪标注数据集单词语义关系正确性和音义关系正确性不能兼顾的问题,进而提升蒙古语语音识别模型半监督训练的性能。

主权项:1.一种蒙古语语音数据选择方法,其特征在于,包括:获取标注语音数据集和无标注语音数据集;使用标注语音数据集训练种子语音识别模型;通过训练后的所述种子语音识别模型解码无标注语音数据集得到伪标注句子集;通过种子语言模型计算伪标注句子集中每条伪标注句序列的困惑度值;计算伪标注句序列中全部单词的后验概率的平均值得到可信度值;通过伪标注句序列的可信度值和困惑度值计算得到伪标注句序列的可信困惑度分数;所述获取其中每条伪标注句序列的困惑度值具体步骤为: 其中,PPLt为困惑度值,n代表伪标注句序列t中单词数量,wi代表伪标注句序列中第i个位置的单词;获取所述可信度值的具体步骤为: 其中,Confit为可信度值,wi代表伪标注句序列中第i个位置的单词,n代表伪标注句序列t的单词个数,xi代表该位置单词的声学特征;获取所述可信困惑度分数的具体步骤为: 其中,CP-Scoret为可信困惑度分数,wi代表伪标注句序列中第i个位置的单词,n代表伪标注句序列t的单词个数,xi表示该位置单词的声学特征,代表伪标注句子集T中句序列的平均长度,表示利用指数函数将困惑度值完成平均归一化,α为权重值,对于伪标注句子集T中的一条伪标注句序列t=w1...wn-1wn,其相似概率为pt=Pw1...wn-1wn,其中,M代表伪标注句子集T中句子数量,|tj|为T中第j条伪标注句序列长度;设定可信困惑度临界值,让伪标注句子集通过可信困惑度数据选择机制,选择可信困惑度分数大于临界值的句序列,得到的高质量伪标注句子集;将高质量伪标注句子集与相应的无标注语音数据进行匹配,得到蒙古语伪标注数据集。

全文数据:

权利要求:

百度查询: 内蒙古工业大学 一种蒙古语语音数据选择方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。