一种特征词驱动的文本多标签层次分类方法和系统

导航：龙图腾网> 最新专利技术> 一种特征词驱动的文本多标签层次分类方法和系统

申请/专利权人：上海金融期货信息技术有限公司

申请日：2020-06-17

公开（公告）日：2024-06-25

公开（公告）号：CN112115259B

主分类号：G06F16/35

分类号：G06F16/35;G06F16/36;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.06.25#授权;2021.01.08#实质审查的生效;2020.12.22#公开

摘要：本发明公开了一种特征词驱动的文本多标签层次分类方法和系统，能够在不提供标注数据，仅需要提供标签相关的特征词的情况下，依靠特征词驱动解决文本多标签层次分类问题。其技术方案为：本发明利用异构信息网络学习词向量，充分利用了文本以外的信息，有助于提升最终的技术效果。本发明的方法中提出了多标签伪文档的生成技术，这是本发明方法可以工作的重要前提。如果没有多标签伪文档的生成技术，则需要提供标签数据，会带来昂贵的标注成本。本发明的方法在自训练过程中引入了置信度过滤的机制，设计了一种新颖的置信度计算方法，并且利用标签归一化进一步提升了实验效果。如果没有置信度过滤机制，自学习部分就无法迭代进行。

主权项：1.一种特征词驱动的文本多标签层次分类方法，其特征在于，方法包括：步骤1：针对目标语料集构建出异构信息网络，其中构建网络的数据来源包括无标签数据集、带特征词的标签层级结构，在构建异构信息网络的过程中还包括定义包括节点、模式、边的异构信息网络的属性，其中节点包括无标签数据集中的新闻正文节点、新闻标题节点、媒体来源节点、编辑节点、新闻关键词节点、标签树中的标签节点和特征词节点、每一篇新闻的节点，模式是以无标签数据集中的新闻正文节点为中心的星型模式；步骤2：学习所构建的异构信息网络中的节点表示，将其中的无标签数据集中的新闻正文节点表示指定为词向量并进行归一化处理；步骤3：基于归一化后的词向量进行主题建模；步骤4：基于主题建模生成多标签伪文档；步骤5：基于多标签伪文档进行分类器的预训练；步骤6：利用无标签语料实现对全局分类器进行包括文本标签置信度过滤以及标签归一化的自训练过程，得到可以解决文本多标签层次分类问题的分类模型的最终输出结果；其中，步骤2中进一步包括：采用包括ESim算法在内的网络学习算法学习异构信息网络中的全部类型的节点表示，将无标签数据集中的新闻正文节点表示指定为词向量；将词向量进行归一化处理；其中，步骤4进一步包括：从主题建模的主题分布中随机抽取多个文本向量；基于相似度计算，对每个文本向量都构建对应的词典；基于词典，通过文档词汇分布和背景词汇概率分布计算伪文档的内容，其中背景词汇概率分布为全部语料中的词汇概率分布；根据伪文档的内容确定伪文档的多个标签；其中，步骤5进一步包括：预训练局部分类器：将伪文档标签数据输入到神经网络模型得到多个预训练的局部分类器；将多个局部分类器聚合为全局分类器：从标签层级结构的根节点出发，到叶子节点级为止，自顶向下地集成全部局部分类器，构建出一个全局分类器。

全文数据：

权利要求：

百度查询：上海金融期货信息技术有限公司一种特征词驱动的文本多标签层次分类方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种机罩

下一篇：一种砂浆压实装置

相关技术

一种机罩

一种砂浆压实装置

一种细分子印刷喷粉加工用研磨装置

气动搬运平台

一种防滑型无纺布的裁剪装置

一种纸箱印刷机用送料装置

一种配电网规划用的智慧配电网架

一种优化音频输出噪声的设备

一种NB模组驱动的摄像采集装置

一种液体沥青取样装置

一种单因子加药泵回水安全阀

一种螺旋输送装置

标签相关技术

一种基于特征聚类和标签相似性的标签增强方法_浙江工商大学_202110088305.2

一种标签裁切转运机构_郑州澳莱工业科技有限公司_202322500271.0

一种标签贴附机构_广东辰奕智能科技股份有限公司_202323464061.7

一种采样管标签及其制备方法_上海昂朴生物科技有限公司_202211690944.7

基于.NET的Mybatis动态标签转换方法及系统_浪潮软件科技有限公司_202410248289.2

一种防水型电子标签_深圳锐驰物联科技有限公司_202322134762.8

背面带有追溯码的标签板_上海灵敏包装材料有限公司_202322707668.7

一种电子标签原材料加工设备_黄海_202320720853.7

标签确定方法、装置、设备、存储介质及程序产品_腾讯科技(深圳)有限公司_202211671015.1

多标签对象分类方法、装置及电子设备_百度在线网络技术(北京)有限公司_202410330792.2

层次相关技术

一种多层次高浓度污水处理装置_山东东环环境科技股份有限公司_202323402930.3

基于多层次嵌套动态规划多目标模型的水库优化调度方法_中国电建集团华东勘测设计研究院有限公司_202310938429.4

基于随机源矩阵和层次分析的用电特征辨识方法及系统_山东大学_202210326321.5

融合多层次主题特征的文本摘要自动生成方法及装置_河南大学_202111598105.8

基于虚实跨层次原型的智慧城市服务方法及系统_荣科科技股份有限公司_202410675426.0

融合多标签对比学习和KNN的层次文本分类方法_东华理工大学南昌校区_202311599668.8

一种基于多层次特征强化与级联自蒸馏的单目深度预测方法_安徽理工大学_202410510052.7

一种基于层次图建模的蛋白质相互作用调节剂预测方法_哈尔滨工业大学_202410357801.7

一种基于多层次特征重构的无监督缺陷检测与定位方法_福州大学_202111625694.4

适于极地船舶结构融合损伤判据层次模型的要素权重系数确定方法及装置_中国船舶科学研究中心_202410264657.2

文本相关技术

文本识别模型训练方法、文本识别方法、装置及存储介质_北京百度网讯科技有限公司_202310019561.5

编码器优化的文本渲染_安讯士有限公司_202311785952.4

文本情感分析方法和装置_北京百度网讯科技有限公司_202110818598.5

文本处理方法及装置_华为技术有限公司_201911335070.1

文本识别方法和装置_深圳市星桐科技有限公司_202210660171.1

一种文本标注方法及软件产品_深圳思为科技有限公司_202111408204.5

识别图像中文本的方法、装置和系统_华为技术有限公司_201911391341.5

文本信息的确定方法及电子设备_联想(北京)有限公司_202410323963.9

文本识别方法、装置、设备及存储介质_深圳市星桐科技有限公司_202210661531.X

一种文本生成方法及装置_北京深言科技有限责任公司_202410250261.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种特征词驱动的文本多标签层次分类方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务