【发明授权】一种基于文本噪声标签和协同训练策略的文本分类方法_合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)_202410055683.4

申请/专利权人：合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)

申请日：2024-01-15

公开（公告）日：2024-04-26

公开（公告）号：CN117574258B

主分类号：G06F18/2413

分类号：G06F18/2413;G06F18/214;G06F18/2415;G06N3/045;G06N3/0499;G06N3/084;G06N3/0895

优先权：

专利状态码：有效-授权

法律状态：2024.04.26#授权;2024.03.08#实质审查的生效;2024.02.20#公开

摘要：本发明涉及带噪学习技术领域，公开了一种基于文本噪声标签和协同训练策略的文本分类方法，将文本输入到完成训练的语言模型中，预测得到文本对应的标签；语言模型的训练方法包括：划分子集；对原始标签进行翻新；隐空间的文本插值；构建损失函数并训练；本发明采用协同语言模型的训练策略，同时将一个语言模型的子集划分结果线性组合作为同伴语言模型的训练样本。这种策略可以防止模型过度拟合到有噪声的样本，并确保模型从不同范围的数据中学习到全面的信息。

主权项：1.一种基于文本噪声标签和协同训练策略的文本分类方法，将文本输入到完成训练的文本分类模型中，预测得到文本对应的标签；通过协同训练策略对文本分类模型进行训练，文本分类模型的训练方法具体包括：步骤一，划分子集：将样本集的文本样本输入到两个文本分类模型中，如果文本分类模型预测的标签与文本样本的原始标签一致，则将文本样本和对应的原始标签划为标记子集；如果文本分类模型预测的标签与文本样本的原始标签不一致，则将文本样本和对应的原始标签划为未标记子集；两个文本分类模型分别记为模型一和模型二，通过模型一划分出的标记子集和未标记子集作为模型二的训练数据集，记为训练数据集二；通过模型二划分出的标记子集和未标记子集作为模型一的训练数据集，记为训练数据集一；其中，两个文本分类模型均由类型相同但参数不同的预训练语言模型和线性全连接层组成；步骤二，对原始标签进行翻新：通过回译在训练数据集一和训练数据集二中的未标记子集的文本样本基础上得到增强文本，将训练数据集一的文本样本和对应的增强文本输入到模型一和模型二中，将训练数据集二的文本样本和对应的增强文本输入到模型一和模型二中，对模型一和模型二的输出进行平均和锐化，得到翻新标签；未标记子集的文本样本和翻新标签，组成未标记子集；步骤三，隐空间的文本插值：通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集中的文本样本进行文本插值操作，来创建增强后的文本样本，得到标记子集和未标记子集；步骤四，构建损失函数并训练：模型一和模型二的训练损失包括标记子集上的损失、未标记子集上的损失和正则化参数：；其中，表示权重参数；标记子集上的损失；表示标记子集中文本样本的概率标签，表示概率标签的类别序号，表示第c类概率标签；为文本样本输入文本分类模型后，文本分类模型线性全连接层的softmax层关于第c类概率标签的输出，是预训练模型的总参数表示，表示全连接层的参数；未标记子集上的损失；表示未标记子集中文本样本的概率标签；为文本样本输入文本分类模型后，文本分类模型线性全连接层的softmax层的输出；正则化参数；是一个常数；通过训练损失以及经过步骤二和步骤三处理过的训练数据集一对模型一进行训练，通过反向传播更新模型一的参数，直至模型一收敛；通过训练损失以及经过步骤二和步骤三处理过的训练数据集二对模型二进行训练，通过反向传播更新模型二的参数，直至模型二收敛；步骤二对原始标签进行翻新时，将未标记子集的文本样本称为未标记样本；步骤二具体包括：；；表示文本分类模型的总数，，k表示第k个文本分类模型的序号；表示未标记样本输入文本分类模型后，文本分类模型线性全连接层的softmax层的输出；表示所述增强文本输入文本分类模型后，文本分类模型线性全连接层的softmax层的输出；是第k个文本分类模型的预训练模型的总参数表示，表示第k个文本分类模型的全连接层的参数；为对文本分类模型的输出进行平均后得到的输出概率；经过以温度为参数的锐化操作得到所述翻新标签；所述通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集中的文本样本进行文本插值操作来创建增强后的文本样本，具体包括：在预训练语言模型的层中前向执行编码操作，得到预训练语言模型第层的隐层特征：；；分别为第个文本样本和第个文本样本，为与对应的预训练语言模型第层的隐层特征，与对应的预训练语言模型第层的隐层特征；在预训练语言模型的第层中执行隐空间插值操作，得到线性组合的插值向量：；为服从Beta分布的参数；在预训练语言模型剩余的层中继续执行预训练语言模型的编码操作，最终得到线性组合的增强后的文本样本：；为预训练语言模型的总层数。

全文数据：

权利要求：

百度查询：合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于文本噪声标签和协同训练策略的文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：验证转化回传数据方法、装置、计算机设备和存储介质_上海数禾信息科技有限公司_202311042515.3

下一篇：一种含氟塑料加工助剂及其制备工艺_稷昶新材料科技(上海)有限公司_202311471760.6

相关技术

验证转化回传数据方法、装置、计算机设备和存储介质_上海数禾信息科技有限公司_202311042515.3

一种含氟塑料加工助剂及其制备工艺_稷昶新材料科技(上海)有限公司_202311471760.6

一种全自动样品混合缩分装置及方法_青岛海关技术中心_201910859073.9

基于无监督学习的多视角显著性估计方法_西北工业大学_202011250827.X

一种焊剂片约束电弧焊焊接T型接头的夹具_兰州理工大学_201910643137.1

一种处理DMS红外光反射导致亮斑的系统_钧捷智能(深圳)有限公司_202310101483.3

刷新注册的容错处理方法、装置、CSCF以及介质_中国电信股份有限公司_202010967419.X

燃料电池以及燃料电池的制造方法_丰田自动车株式会社_202110209899.8

掩模缺陷的检测方法_中国科学院上海高等研究院_202310202672.X

一种即时检验抗凝药物监测系统_北京倍肯恒业科技发展股份有限公司_202310581047.0

一种泥水盾构泥水循环系统管路堵塞智能预警方法_郑州轻工业大学_202310490445.1

一种农产品供应链信息管理系统_河南建设产业投资有限公司_202311393351.9

策略相关技术

电动汽车变速器控制策略_通用汽车环球科技运作有限责任公司_202310534289.4

多摄策略调度方法及其相关设备_荣耀终端有限公司_202210193105.8

安全策略生成方法、装置及系统_华为技术有限公司_202311667976.X

基于动态映射策略的负载均衡方法及装置_中国工商银行股份有限公司_202410153181.5

一种天然气产业链优化策略生成方法及装置_中国石油天然气股份有限公司_202211353587.5

一种基于隐式反馈的协同过滤算法的优化策略_华侨大学_202410417606.9

一种基于计算机物联网的缓存数据放置策略优化方法_国网湖北省电力有限公司信息通信公司_202311821795.8

一种面向空中博弈对抗的策略自适应切换方法_中国电子科技集团公司第五十二研究所_202410144270.3

控制策略确定方法、装置、计算机设备、存储介质及产品_北京嘀嘀无限科技发展有限公司_202211335096.8

改进开关状态最优组合的三相逆变器电流预测控制策略_浙大城市学院_202410020754.7

文本相关技术

文本识别方法、文本识别装置、介质与电子设备_OPPO广东移动通信有限公司_202211407144.X

文本颜色确定方法及装置_珠海金山办公软件有限公司_202211401674.3

基于文本挖掘和自然语言处理的地质报告文本可视化方法_中国地质大学(武汉)_202011111355.X

基于富文本编辑器的文本结构化方法及装置、介质及设备_医渡云(北京)技术有限公司_202211058751.X

文本压缩方法、装置、存储介质及电子设备_度小满科技(北京)有限公司_202410038920.6

一种文本处理方法及系统_联通沃音乐文化有限公司_202311227355.X

文本显示方法、装置、电子设备及存储介质_维沃移动通信有限公司_202110407700.2

文本搜索提速方法、装置、设备及存储介质_北京中科闻歌科技股份有限公司_202410198070.6

文本定位方法、装置、设备及存储介质_珠海莫界科技有限公司_202311805366.1

一种文本聚类的方法及装置_平安科技(深圳)有限公司_202010038156.4

训练相关技术

集测试和主被动训练的平衡训练台_河南省祥和康复产业技术研究院有限责任公司_201910990896.5

划船训练装置_广州源动智慧体育科技有限公司_202322653473.9

甲状腺手术体位训练枕_中国人民解放军联勤保障部队第九〇八医院_202410311253.4

用于视力训练的头戴式显示设备和视力训练方法_杭州灵伴科技有限公司_202410425739.0

多模式下肢多关节康复训练装置及训练方法_陕西省康复医院(陕西省残疾人康复中心)_202410229262.9

一种模拟训练用军事训练激光射击装置_中国人民解放军第六四一一工厂_202322674736.4

大语言模型训练及训练数据构建方法、装置、设备、介质_蚂蚁科技集团股份有限公司_202410405159.5

一种预训练模型的训练方法及系统_北京华品博睿网络技术有限公司_202410048860.6

神经网络模型的训练方法和训练系统_第四范式(北京)技术有限公司_201910618250.4

一种预训练语言模型的训练方法及装置_鼎富智能科技有限公司_202210287236.2

龙图腾网&IPTOP

【发明授权】一种基于文本噪声标签和协同训练策略的文本分类方法_合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)_202410055683.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务