申请/专利权人:北京小米移动软件有限公司;北京小米松果电子有限公司
申请日:2021-07-27
公开(公告)日:2024-06-11
公开(公告)号:CN113593591B
主分类号:G10L21/0208
分类号:G10L21/0208;G10L21/0264;G10L15/20
优先权:
专利状态码:有效-授权
法律状态:2024.06.11#授权;2021.11.19#实质审查的生效;2021.11.02#公开
摘要:本公开是关于一种语料降噪方法及装置、电子设备和存储介质。该方法包括:获取初始语料集合的估计标签分布;根据所述估计标签分布获取置信矩阵,所述置信矩阵用于描述类别条件下的标签噪声分布;基于所述置信矩阵获取所述初始语料集合中的噪声语料;处理所述初始语料集合中的噪声语料,获得目标语料集合。本实施例中可以通过标签的预测概率和标注标签来建立置信矩阵,并通过置信矩阵来识别出初始语料集合中的噪声语料,在对噪声语料处理后,可以减少目标语料中噪声语料所占的比例和歧义信息,使目标语料的边界更清晰,减少垂域模型的训练次数,进而减少训练所需要的计算资源和消耗时长,有利于提升训练效率。
主权项:1.一种语料降噪方法,其特征在于,所述方法包括:获取初始语料集合的估计标签分布;根据所述估计标签分布获取置信矩阵,所述置信矩阵用于描述类别条件下的标签噪声分布;基于所述置信矩阵获取所述初始语料集合中的噪声语料;处理所述初始语料集合中的噪声语料,获得目标语料集合;根据所述估计标签分布获取置信矩阵,包括:从所述估计标签分布内获取各个标签的预测概率;所述估计标签分布包括所述初始语料集合中各个语料被估计为各个标签的预测概率;计算各个标签的预测概率的平均值,并将所述平均值作为所述各个标签的置信度;针对所述各个语料,获取预测概率满足预设置信度条件的标签;所述预设置信度条件是指预测概率需要是超过标签置信度的最大预测概率;统计所述初始语料集合中满足预设置信度条件的标签类别下语料的数量;基于所述数量构建置信矩阵;所述置信矩阵中所有元素之和为1。
全文数据:
权利要求:
百度查询: 北京小米移动软件有限公司;北京小米松果电子有限公司 语料降噪方法及装置、电子设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。