买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于文本噪声标签和协同训练策略的文本分类方法_合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)_202410055683.4 

申请/专利权人:合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)

申请日:2024-01-15

公开(公告)日:2024-04-26

公开(公告)号:CN117574258B

主分类号:G06F18/2413

分类号:G06F18/2413;G06F18/214;G06F18/2415;G06N3/045;G06N3/0499;G06N3/084;G06N3/0895

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2024.03.08#实质审查的生效;2024.02.20#公开

摘要:本发明涉及带噪学习技术领域,公开了一种基于文本噪声标签和协同训练策略的文本分类方法,将文本输入到完成训练的语言模型中,预测得到文本对应的标签;语言模型的训练方法包括:划分子集;对原始标签进行翻新;隐空间的文本插值;构建损失函数并训练;本发明采用协同语言模型的训练策略,同时将一个语言模型的子集划分结果线性组合作为同伴语言模型的训练样本。这种策略可以防止模型过度拟合到有噪声的样本,并确保模型从不同范围的数据中学习到全面的信息。

主权项:1.一种基于文本噪声标签和协同训练策略的文本分类方法,将文本输入到完成训练的文本分类模型中,预测得到文本对应的标签;通过协同训练策略对文本分类模型进行训练,文本分类模型的训练方法具体包括:步骤一,划分子集:将样本集的文本样本输入到两个文本分类模型中,如果文本分类模型预测的标签与文本样本的原始标签一致,则将文本样本和对应的原始标签划为标记子集;如果文本分类模型预测的标签与文本样本的原始标签不一致,则将文本样本和对应的原始标签划为未标记子集;两个文本分类模型分别记为模型一和模型二,通过模型一划分出的标记子集和未标记子集作为模型二的训练数据集,记为训练数据集二;通过模型二划分出的标记子集和未标记子集作为模型一的训练数据集,记为训练数据集一;其中,两个文本分类模型均由类型相同但参数不同的预训练语言模型和线性全连接层组成;步骤二,对原始标签进行翻新:通过回译在训练数据集一和训练数据集二中的未标记子集的文本样本基础上得到增强文本,将训练数据集一的文本样本和对应的增强文本输入到模型一和模型二中,将训练数据集二的文本样本和对应的增强文本输入到模型一和模型二中,对模型一和模型二的输出进行平均和锐化,得到翻新标签;未标记子集的文本样本和翻新标签,组成未标记子集;步骤三,隐空间的文本插值:通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集中的文本样本进行文本插值操作,来创建增强后的文本样本,得到标记子集和未标记子集;步骤四,构建损失函数并训练:模型一和模型二的训练损失包括标记子集上的损失、未标记子集上的损失和正则化参数:;其中,表示权重参数;标记子集上的损失;表示标记子集中文本样本的概率标签,表示概率标签的类别序号,表示第c类概率标签;为文本样本输入文本分类模型后,文本分类模型线性全连接层的softmax层关于第c类概率标签的输出,是预训练模型的总参数表示,表示全连接层的参数;未标记子集上的损失;表示未标记子集中文本样本的概率标签;为文本样本输入文本分类模型后,文本分类模型线性全连接层的softmax层的输出;正则化参数;是一个常数;通过训练损失以及经过步骤二和步骤三处理过的训练数据集一对模型一进行训练,通过反向传播更新模型一的参数,直至模型一收敛;通过训练损失以及经过步骤二和步骤三处理过的训练数据集二对模型二进行训练,通过反向传播更新模型二的参数,直至模型二收敛;步骤二对原始标签进行翻新时,将未标记子集的文本样本称为未标记样本;步骤二具体包括: ; ; 表示文本分类模型的总数,,k表示第k个文本分类模型的序号;表示未标记样本输入文本分类模型后,文本分类模型线性全连接层的softmax层的输出;表示所述增强文本输入文本分类模型后,文本分类模型线性全连接层的softmax层的输出;是第k个文本分类模型的预训练模型的总参数表示,表示第k个文本分类模型的全连接层的参数;为对文本分类模型的输出进行平均后得到的输出概率;经过以温度为参数的锐化操作得到所述翻新标签;所述通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集中的文本样本进行文本插值操作来创建增强后的文本样本,具体包括:在预训练语言模型的层中前向执行编码操作,得到预训练语言模型第层的隐层特征: ; ; 分别为第个文本样本和第个文本样本,为与对应的预训练语言模型第层的隐层特征,与对应的预训练语言模型第层的隐层特征;在预训练语言模型的第层中执行隐空间插值操作,得到线性组合的插值向量: ; 为服从Beta分布的参数; 在预训练语言模型剩余的层中继续执行预训练语言模型的编码操作,最终得到线性组合的增强后的文本样本: ; 为预训练语言模型的总层数。

全文数据:

权利要求:

百度查询: 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于文本噪声标签和协同训练策略的文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。