【发明公布】一种基于平衡损失函数的长尾分布投诉举报文本分类方法_北京工业大学_202410094505.2

导航：龙图腾网> 最新专利技术> 一种基于平衡损失函数的长尾分布投诉举报文本分类方法_北京工业大学_202410094505.2

申请/专利权人：北京工业大学

申请日：2024-01-23

公开（公告）日：2024-05-24

公开（公告）号：CN118069836A

主分类号：G06F16/35

分类号：G06F16/35;G06F18/24;G06F18/10;G06F18/213;G06N3/0455;G06N3/0499;G06N3/08;G06N3/048

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.06.11#实质审查的生效;2024.05.24#公开

摘要：本发明公开了一种基于平衡损失函数的长尾分布投诉举报文本分类方法，具体包括以下步骤：首先对数据进行数据清洗、去停用词等操作，为后续文本分类过程减少干扰项；然后通过BERT预训练模型进行预训练和特征提取，获得与类别信息最相关的特征向量；最后通过全连接层分类器获取分类结果。同时，本发明在经典损失函数的基础上进行优化，提出一种Gumbel分布平衡损失函数，一方面采用Gumbel激活函数替代一般激活函数，为头部类和尾部类赋予不同的梯度；另一方面引入正则化项，抑制尾部类的过拟合，提高其泛化性。本发明显著提高尾部类的分类效果，从而使整体的分类性能有所提升，能够有效解决投诉举报文本分类任务中的长尾分布问题。

主权项：1.一种基于平衡损失函数的长尾分布投诉举报文本分类方法，其特征在于，给定一个投诉举报文本分类数据集其中xi表示第i个文本样本，n是数据集中文本的总数；对于任意一个输入样本xi，都有其对应的标签其中为第k类标签的二元表示，m为类别总数；输入样本xi经过BERT预训练模型得到其特征向量fi∈RD，其中D为模型嵌入层的维度，维度设置为300；在分类时，特征向量fi要经过一个全连接层分类器θ·，θfi＝WTfi+b，其中W∈RD×m为分类权重，b∈Rm为偏差项，用于计算得分然后使用激活函数σ·来将得分转化为预测输出其中将损失记为通过最小化在训练集上计算的损失来提取最优分类器参数W*；方法具体包括：1数据预处理模块数据预处理是将文本数据集进行数据清洗、去停用词，得到规范化的样本xi和标签yi；2特征提取模块使用BERT模型进行特征提取，对投诉举报的文本内容xi通过分词、词嵌入向量化，使用模型的输出作为文本输入xi的特征表示fi；其中BERT表示所使用的预训练模型，batchsize设置为32，batchsize表示每次单次传递给模型用以训练的样本个数；训练轮数epoch设置为10，学习率learningrate设置为1e-5；3分类器模块特征向量fi通过一个全连接层分类器θ·进行分类任务，得到文本的预测标签使用Gumbel激活函数；4平衡损失函数在训练和分类过程中，预测标签和真实标签yi通过Gumbel正则化平衡损失函数LGRB对神经网络进行权重参数调整；具体如下：S1权重系数采用了类别平衡损失函数CBLoss中的权重rCB，具体公式如下：其中Nk表示第k类的样本数，β∈[0,1用来控制有效数增长的快慢，这里β的值取0.9；S2使用Gumbel激活函数，函数形式为：σGumbelx＝exp-e-x3其中σGumbel*表示Gumbel激活函数；对于投诉举报文本分类任务中的任意一个输入样本xi，其经过特征提取和分类过程得到得分其中经过激活函数处理，得到最终预测标签输出公式如下： S3Gumbel正则化平衡损失函数引入了约束因子μ和偏差参数εi；考虑偏差参数εi作为唯一的变量，则类别i平均损失的近似值公式如下：所以偏差参数εi通过最小化损失函数进行估计具体公式如下：其中Nk为第k类样本数，M为总样本数，α为比例系数，并且α为0.05；另外，基于对损失梯度的控制考虑，引入了一个约束因子μ，μ为2；S4最终得到Gumbel正则化平衡损失；具体公式如下：其中γ≥0为调节因子，用于控制控制损失函数聚焦难分类样本，γ为2。

全文数据：

权利要求：

百度查询：北京工业大学一种基于平衡损失函数的长尾分布投诉举报文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种智能机械抓手_陇芯微(西安)电子科技有限公司_202111591327.7

下一篇：温度控制方法、装置、设备以及存储介质_深圳市汇川技术股份有限公司_202211206401.3

相关技术

一种智能机械抓手_陇芯微(西安)电子科技有限公司_202111591327.7

温度控制方法、装置、设备以及存储介质_深圳市汇川技术股份有限公司_202211206401.3

一种双层保温日光温室_山东同岚农业发展集团有限公司_202410511060.3

一种搅拌式反应釜_江苏中特特种金属装备有限公司_202410183133.0

一种柔性低密度烧蚀防热涂料及其制备方法_上海箬宇新材料有限公司_202310043235.8

一种感染科医用防护用具回收设备_丰都县十直镇卫生院(丰都县十直镇计划生育服务站)_202210727764.5

一种针对空中目标的雷达可探测性评价方法_中国人民解放军63921部队_202210250664.8

印制绕组式轻量化电磁能量采集装置_中国农业大学_202211249050.4

一种用于化纤在线取丝饼自动暂存的中转机器人_安歌科技(集团)股份有限公司_202210543752.7

一种弯管内壁自动行走激光堆焊增材设备_广东博盈特焊技术股份有限公司_202410354772.9

一种流量监测装置_成都锦城学院_202410425182.0

轮胎磨损监测方法及系统_摩登汽车有限公司_202210397941.8

分布相关技术

一种冲击式气液分布器_湖北云图石化工程有限公司_202323063792.0

一种分布式域名的实现方法_正链科技(深圳)有限公司_202110277201.6

无线系统中的分布式控制_索尼公司_202111336205.3

一种分布式电源监控系统_河南许继继保电气自动化有限公司_202211652017.6

基于细胞分布校准放射学数据_皇家飞利浦有限公司_201980087784.7

一种粒子分布测量系统、方法及装置_苏州苏信环境科技有限公司_202410365198.7

一种分布式边缘终端设备_成都纵横智控科技有限公司_202410660253.5

一种分布式雷电电压发生装置_上海冠图电气科技有限公司_201810126454.1

一种滨海湿地植被分布预测方法_哈尔滨工业大学_202410434500.X

多孔介质孔径分布表征方法及电子设备_中国石油化工股份有限公司_202010989756.9

投诉相关技术

一种投诉根因分析方法、装置及电子设备_中国移动通信集团四川有限公司_202110619904.2

一种基于机器学习的投诉风险审计方法和系统_新讯数字科技(杭州)有限公司_202410394845.7

客户投诉信息处理方法及装置_中国工商银行股份有限公司_202410379764.X

基于数据分类的投诉有效性判断方法、装置、设备及介质_平安银行股份有限公司_202111092667.5

用户投诉数据库扩充方法、装置及存储介质_中电科普天科技股份有限公司_202011642915.4

基于用户感知的投诉信息的处理方法及装置_北京神州泰岳软件股份有限公司_202410307184.X

一种投诉单预测方法及装置_中国农业银行股份有限公司_202410227243.2

国网95598停电投诉预测方法、装置、计算机设备和存储介质_国网河南省电力公司漯河供电公司_202110126435.0

用户投诉预警方法、装置、计算机设备及存储介质_中国平安财产保险股份有限公司_201910841818.9

一种基于平衡损失函数的长尾分布投诉举报文本分类方法_北京工业大学_202410094505.2

举报相关技术

无效举报音频过滤方法、装置、设备、存储介质以及产品_百果园技术(新加坡)有限公司_202410280169.0

交通违章线上举报方法、装置、设备及存储介质_深圳市迈宝斯科技有限公司_202410240649.4

一种基于平衡损失函数的长尾分布投诉举报文本分类方法_北京工业大学_202410094505.2

基于机器学习的投诉举报案件的预测方法及装置_北京北大软件工程股份有限公司_202010273404.3

基于深度迁移网络的投诉举报可信度分析方法_北京工业大学_202110310932.6

基于多权重自训练的环境类投诉举报文本分类方法_北京工业大学_202210249762.X

一种环境类投诉举报事件相似度分析方法_北京工业大学_202110282614.3

一种基于内部举报机制的食用油掺假鉴别方法_中国农业科学院油料作物研究所_202311539317.8

游戏举报处理方法、装置及电子设备_网易(杭州)网络有限公司_202110238007.7

基于自动驾驶车辆的违规行为举报方法_中国电建集团华东勘测设计研究院有限公司_202311296743.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】一种基于平衡损失函数的长尾分布投诉举报文本分类方法_北京工业大学_202410094505.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务