融合多标签对比学习和KNN的层次文本分类方法

导航：龙图腾网> 最新专利技术> 融合多标签对比学习和KNN的层次文本分类方法

申请/专利权人：东华理工大学南昌校区

申请日：2023-11-28

公开（公告）日：2024-06-28

公开（公告）号：CN117574309B

主分类号：G06F18/2451

分类号：G06F18/2451;G06F18/25;G06F18/21;G06N3/0455

优先权：

专利状态码：有效-授权

法律状态：2024.06.28#授权;2024.03.08#实质审查的生效;2024.02.20#公开

摘要：本发明公开了融合多标签对比学习和KNN的层次文本分类方法，包括：通过Graphormer编码标签层次结构，获得标签表示，计算每个标签表示和每个文本词元嵌入之间的注意力权重，获得对应的文本表示；将原始输入样本和正样本的文本表示输入到多标签分类器，计算分类损失；对多标签对比损失、原始输入样本和正样本的分类损失进行求和，基于总损失训练BERT模型，获得测试样本的文本表示，将测试文本的文本表示输入至多标签分类器，获取训练好的模型的预测结果；将KNN预测结果与所述训练好的模型的预测结果进行线性融合，获得最终的预测结果。本发明根据基于标签相似度的动态系数来决定样本对的正向程度，更适用于层次文本分类。

主权项：1.融合多标签对比学习和KNN的层次文本分类方法，其特征在于，包括：通过Graphormer编码标签层次结构，获得代表每个标签节点特征的标签表示，计算每个所述标签表示和每个文本词元嵌入之间的注意力权重，基于所述注意力权重构建正样本，将原始输入文本与所述正样本分别输入到BERT模型中，获得对应的文本表示；计算所述原始输入文本与所述正样本的文本表示的多标签对比损失，并将所述原始输入文本和所述正样本的文本表示输入到多标签分类器，分别计算分类损失；对所述多标签对比损失、原始输入文本和正样本的所述分类损失进行求和，得到总损失，基于所述总损失训练所述BERT模型；将测试样本输入到训练好的模型中，获得测试样本的文本表示，采用KNN检索与所述测试样本的文本表示相似度最高的k个训练样本作为最近邻居样本，并将所述邻居样本的标签作为KNN预测结果，并将所述测试样本的文本表示输入至所述多标签分类器，获取训练好的模型的预测结果；将所述KNN预测结果与所述训练好的模型的预测结果进行线性融合，获得最终的预测结果；通过Graphormer编码标签层次结构，获得所述标签表示，包括：将节点的原始特征初始化为标签嵌入和名称嵌入的和，并将所有标签节点的表示堆叠为矩阵，通过自注意力层来进行特征迁移，最终所述标签表示通过自注意力层公式进行计算；将所述节点的原始特征初始化为标签嵌入和名称嵌入的和的方法为：式中，为标签嵌入和名称嵌入的和，为可学习的标签嵌入，为名称嵌入，为第i个标签节点；计算所述标签表示的方法为：式中，为标签表示，为层归一化，为注意力权重矩阵，为value矩阵，为所有标签节点表示堆叠而成的矩阵，表示矩阵形状；计算每个所述标签表示和每个文本词元嵌入之间的注意力权重的方法为：式中，为每个标签表示和每个文本词元嵌入之间的注意力权重，为输入文本第个词元的BERT词元嵌入，为第个标签的表示，为标签表示的尺寸，和分别为权重矩阵Q和权重矩阵K，，，R为矩阵形状；基于所述注意力权重构建正样本，包括：通过gumbel-softmax计算所述原始输入文本中任意词元属于所述原始输入文本真实标签集的概率，保留原始输入文本中概率高于预设阈值的词元，并将概率低于所述预设阈值的词元替换为嵌入全为0的特殊词元，得到所述正样本；其中，构建所述正样本的方法为：式中，为词元的正样本，为任意词元，为关于真实标签集的概率，为固定阈值；计算所述原始输入文本中任意词元属于所述原始输入文本真实标签集的概率的方法为：式中，为元属于标签的概率，为词元关于标签的注意力权重，为第个标签；由于层次文本分类中一个文本拥有多个标签，则某个词元关于其真实标签集的概率为：其中，为词元关于其真实标签集的概率，为该文本的真实标签集合。

全文数据：

权利要求：

百度查询：东华理工大学南昌校区融合多标签对比学习和KNN的层次文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种单因子加药泵回水安全阀

下一篇：一种砻谷机风选取粮器

相关技术

一种单因子加药泵回水安全阀

一种砻谷机风选取粮器

一种安装工具

一种用于3C零件组装的点胶设备

一种茶叶生产用高效翻炒装置

一种摆动机构及鼓风干燥箱

一种生态护坡绿化模块

一种纸尿裤生产用包边机

一种单双缸风冷柴油机发电机组吸排汇流冷却风道

一种纸面石膏板加工用除尘装置

用于储能元件的转换器及电源系统

一种用于塑料制品生产的表面加工装置

层次相关技术

一种多层次高浓度污水处理装置_山东东环环境科技股份有限公司_202323402930.3

基于多层次嵌套动态规划多目标模型的水库优化调度方法_中国电建集团华东勘测设计研究院有限公司_202310938429.4

基于随机源矩阵和层次分析的用电特征辨识方法及系统_山东大学_202210326321.5

融合多层次主题特征的文本摘要自动生成方法及装置_河南大学_202111598105.8

基于虚实跨层次原型的智慧城市服务方法及系统_荣科科技股份有限公司_202410675426.0

融合多标签对比学习和KNN的层次文本分类方法_东华理工大学南昌校区_202311599668.8

一种基于多层次特征强化与级联自蒸馏的单目深度预测方法_安徽理工大学_202410510052.7

一种基于层次图建模的蛋白质相互作用调节剂预测方法_哈尔滨工业大学_202410357801.7

一种基于多层次特征重构的无监督缺陷检测与定位方法_福州大学_202111625694.4

适于极地船舶结构融合损伤判据层次模型的要素权重系数确定方法及装置_中国船舶科学研究中心_202410264657.2

KNN相关技术

一种基于非共谋双云服务器的隐私保护外包数据KNN方法_上海海洋大学_202111266709.2

基于KNN-GAT-DDQN的城市内涝模拟网格自适应优化方法_天津大学_202410505866.1

一种基于KNN与多元回归的数据填充方法、设备及介质_浪潮卓数大数据产业发展有限公司_202410387235.4

一种面向KNN缺失值填充模型的数据投毒检测方法_暨南大学_202410650199.6

一种基于KNN-SSA-SVM的边坡监测数据异常检测和补全方法_中交四航工程研究院有限公司_202410563538.7

一种KNN算法的芯片功能评估方法_北京前景无忧电子科技股份有限公司_202410619983.0

一种基于KNN回归模型的多维度民航客流量预测方法_飞友科技有限公司_202410216352.4

基于冰模板法制备KNN织构陶瓷的方法及织构陶瓷_北方民族大学_202410343035.9

基于KNN的铝模板特征识别方法、装置、计算机设备及存储介质_杭州涛谱科技有限公司_202410304220.7

基于改进特征描述符和KNN搜索的眼底图像特征点匹配方法_南京邮电大学_202410373152.X

文本相关技术

文本识别模型训练方法、文本识别方法、装置及存储介质_北京百度网讯科技有限公司_202310019561.5

文本情感分析方法和装置_北京百度网讯科技有限公司_202110818598.5

编码器优化的文本渲染_安讯士有限公司_202311785952.4

文本处理方法及装置_华为技术有限公司_201911335070.1

文本识别方法和装置_深圳市星桐科技有限公司_202210660171.1

一种文本标注方法及软件产品_深圳思为科技有限公司_202111408204.5

识别图像中文本的方法、装置和系统_华为技术有限公司_201911391341.5

文本信息的确定方法及电子设备_联想(北京)有限公司_202410323963.9

文本识别方法、装置、设备及存储介质_深圳市星桐科技有限公司_202210661531.X

一种文本生成方法及装置_北京深言科技有限责任公司_202410250261.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

融合多标签对比学习和KNN的层次文本分类方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务