首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种特征词驱动的文本多标签层次分类方法和系统 

申请/专利权人:上海金融期货信息技术有限公司

申请日:2020-06-17

公开(公告)日:2024-06-25

公开(公告)号:CN112115259B

主分类号:G06F16/35

分类号:G06F16/35;G06F16/36;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2021.01.08#实质审查的生效;2020.12.22#公开

摘要:本发明公开了一种特征词驱动的文本多标签层次分类方法和系统,能够在不提供标注数据,仅需要提供标签相关的特征词的情况下,依靠特征词驱动解决文本多标签层次分类问题。其技术方案为:本发明利用异构信息网络学习词向量,充分利用了文本以外的信息,有助于提升最终的技术效果。本发明的方法中提出了多标签伪文档的生成技术,这是本发明方法可以工作的重要前提。如果没有多标签伪文档的生成技术,则需要提供标签数据,会带来昂贵的标注成本。本发明的方法在自训练过程中引入了置信度过滤的机制,设计了一种新颖的置信度计算方法,并且利用标签归一化进一步提升了实验效果。如果没有置信度过滤机制,自学习部分就无法迭代进行。

主权项:1.一种特征词驱动的文本多标签层次分类方法,其特征在于,方法包括:步骤1:针对目标语料集构建出异构信息网络,其中构建网络的数据来源包括无标签数据集、带特征词的标签层级结构,在构建异构信息网络的过程中还包括定义包括节点、模式、边的异构信息网络的属性,其中节点包括无标签数据集中的新闻正文节点、新闻标题节点、媒体来源节点、编辑节点、新闻关键词节点、标签树中的标签节点和特征词节点、每一篇新闻的节点,模式是以无标签数据集中的新闻正文节点为中心的星型模式;步骤2:学习所构建的异构信息网络中的节点表示,将其中的无标签数据集中的新闻正文节点表示指定为词向量并进行归一化处理;步骤3:基于归一化后的词向量进行主题建模;步骤4:基于主题建模生成多标签伪文档;步骤5:基于多标签伪文档进行分类器的预训练;步骤6:利用无标签语料实现对全局分类器进行包括文本标签置信度过滤以及标签归一化的自训练过程,得到可以解决文本多标签层次分类问题的分类模型的最终输出结果;其中,步骤2中进一步包括:采用包括ESim算法在内的网络学习算法学习异构信息网络中的全部类型的节点表示,将无标签数据集中的新闻正文节点表示指定为词向量;将词向量进行归一化处理;其中,步骤4进一步包括:从主题建模的主题分布中随机抽取多个文本向量;基于相似度计算,对每个文本向量都构建对应的词典;基于词典,通过文档词汇分布和背景词汇概率分布计算伪文档的内容,其中背景词汇概率分布为全部语料中的词汇概率分布;根据伪文档的内容确定伪文档的多个标签;其中,步骤5进一步包括:预训练局部分类器:将伪文档标签数据输入到神经网络模型得到多个预训练的局部分类器;将多个局部分类器聚合为全局分类器:从标签层级结构的根节点出发,到叶子节点级为止,自顶向下地集成全部局部分类器,构建出一个全局分类器。

全文数据:

权利要求:

百度查询: 上海金融期货信息技术有限公司 一种特征词驱动的文本多标签层次分类方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。