首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于平衡损失函数的长尾分布投诉举报文本分类方法_北京工业大学_202410094505.2 

申请/专利权人:北京工业大学

申请日:2024-01-23

公开(公告)日:2024-05-24

公开(公告)号:CN118069836A

主分类号:G06F16/35

分类号:G06F16/35;G06F18/24;G06F18/10;G06F18/213;G06N3/0455;G06N3/0499;G06N3/08;G06N3/048

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.11#实质审查的生效;2024.05.24#公开

摘要:本发明公开了一种基于平衡损失函数的长尾分布投诉举报文本分类方法,具体包括以下步骤:首先对数据进行数据清洗、去停用词等操作,为后续文本分类过程减少干扰项;然后通过BERT预训练模型进行预训练和特征提取,获得与类别信息最相关的特征向量;最后通过全连接层分类器获取分类结果。同时,本发明在经典损失函数的基础上进行优化,提出一种Gumbel分布平衡损失函数,一方面采用Gumbel激活函数替代一般激活函数,为头部类和尾部类赋予不同的梯度;另一方面引入正则化项,抑制尾部类的过拟合,提高其泛化性。本发明显著提高尾部类的分类效果,从而使整体的分类性能有所提升,能够有效解决投诉举报文本分类任务中的长尾分布问题。

主权项:1.一种基于平衡损失函数的长尾分布投诉举报文本分类方法,其特征在于,给定一个投诉举报文本分类数据集其中xi表示第i个文本样本,n是数据集中文本的总数;对于任意一个输入样本xi,都有其对应的标签其中为第k类标签的二元表示,m为类别总数;输入样本xi经过BERT预训练模型得到其特征向量fi∈RD,其中D为模型嵌入层的维度,维度设置为300;在分类时,特征向量fi要经过一个全连接层分类器θ·,θfi=WTfi+b,其中W∈RD×m为分类权重,b∈Rm为偏差项,用于计算得分然后使用激活函数σ·来将得分转化为预测输出其中将损失记为通过最小化在训练集上计算的损失来提取最优分类器参数W*;方法具体包括:1数据预处理模块数据预处理是将文本数据集进行数据清洗、去停用词,得到规范化的样本xi和标签yi;2特征提取模块使用BERT模型进行特征提取,对投诉举报的文本内容xi通过分词、词嵌入向量化,使用模型的输出作为文本输入xi的特征表示fi;其中BERT表示所使用的预训练模型,batchsize设置为32,batchsize表示每次单次传递给模型用以训练的样本个数;训练轮数epoch设置为10,学习率learningrate设置为1e-5;3分类器模块特征向量fi通过一个全连接层分类器θ·进行分类任务,得到文本的预测标签使用Gumbel激活函数;4平衡损失函数在训练和分类过程中,预测标签和真实标签yi通过Gumbel正则化平衡损失函数LGRB对神经网络进行权重参数调整;具体如下:S1权重系数采用了类别平衡损失函数CBLoss中的权重rCB,具体公式如下: 其中Nk表示第k类的样本数,β∈[0,1用来控制有效数增长的快慢,这里β的值取0.9;S2使用Gumbel激活函数,函数形式为:σGumbelx=exp-e-x3其中σGumbel*表示Gumbel激活函数;对于投诉举报文本分类任务中的任意一个输入样本xi,其经过特征提取和分类过程得到得分其中经过激活函数处理,得到最终预测标签输出公式如下: S3Gumbel正则化平衡损失函数引入了约束因子μ和偏差参数εi;考虑偏差参数εi作为唯一的变量,则类别i平均损失的近似值公式如下: 所以偏差参数εi通过最小化损失函数进行估计具体公式如下: 其中Nk为第k类样本数,M为总样本数,α为比例系数,并且α为0.05;另外,基于对损失梯度的控制考虑,引入了一个约束因子μ,μ为2;S4最终得到Gumbel正则化平衡损失;具体公式如下: 其中γ≥0为调节因子,用于控制控制损失函数聚焦难分类样本,γ为2。

全文数据:

权利要求:

百度查询: 北京工业大学 一种基于平衡损失函数的长尾分布投诉举报文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。