首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种联合LW2V与Triplet网络的新闻主题事件检测方法 

申请/专利权人:西安交通大学

申请日:2020-05-06

公开(公告)日:2023-08-11

公开(公告)号:CN111581967B

主分类号:G06F40/289

分类号:G06F40/289;G06F40/30;G06F40/211;G06F40/216;G06F40/126;G06F18/22;G06N3/0464;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2023.08.11#授权;2020.09.18#实质审查的生效;2020.08.25#公开

摘要:本发明公开了一种联合LW2V与Triplet网络的新闻主题事件检测方法,本发明利用Triplet网络在样本有限的条件下无监督的实现新闻聚类,在网络中提取新闻标题添加主题信息,通过新闻标题和新闻正文的信息交互联合学习对主题信息进一步强化,克服了传统聚类技术在实现新闻主题聚类的缺点与不足。本发明使用Triplet网络作为新闻主题聚类的基础架构,可以在样本数量有限的条件下直接对样本进行比较实现模型的训练。该网络打破深度学习无法实现无监督过程的瓶颈。同时克服了深度学习在大量样本条件下对模型进行训练的先决条件。

主权项:1.一种联合LW2V与Triplet网络的新闻主题事件检测方法,其特征在于,包括以下步骤:阶段0:数据预处理步骤0:对新闻正文中的每个句子利用分词工具将句子分解为单词序列,并去除停用词;将正文对应的标题利用分词工具将标题分解为单词序列,并去除停用词;步骤1:对新闻数据的定义如下:对于新闻集中每篇新闻报道包括正文以及对应的标题两部分,即,;新闻正文由L个句子组成,即,表示新闻正文中第l个句子,;新闻正文中的每个句子由M个词语组成,即,表示新闻正文中第l个句子中第m个词语,,;新闻标题由D个词语组成,即,其中,表示新闻标题中第d个词语,;阶段1:基于LW2V生成新闻三元组步骤2:通过LDA挖掘出新闻集隐含的K个主题,即主题集;对于每个主题,LDA能够得到主题-特征词的分布,对于每个主题,选取主题-特征词的前P个作为该主题的描述;前P个主题-特征词及分布表示为: 其中,表示为第k个主题下的第p个特征词,表示第k个主题下的第p个特征词的分布,w表示特征词,K表示主题的个数;步骤3:采用预训练的语言模型Word2Vec作为单词嵌入工具获取每个主题-特征词情境化的嵌入语义表示;步骤4:将前P个主题-特征词以及主题-特征词的特征分布与主题-特征词的嵌入语义表示进行加权求和得到主题特征向量: 其中,表示第k个主题,表示第k个主题下第p个特征词的分布,表示某个特征词的词向量;步骤5:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻报道正文中每个词语的嵌入语义表示;步骤6:新闻报道的向量为新闻中单词向量的和平均,具体计算公式如下: 其中,为新闻集合中的第z篇新闻报道,表示为的形式;表示第z篇报道下的第c个词语,;步骤7:将新闻报道的向量分别与K个主题向量进行相似度计算,选取相似度最大的值所对应的主题作为该新闻报道的主题: 步骤8:对Triplet的输入三元组进行构建;对于候选新闻报道x,在与其同主题的新闻报道集合中随机选择一篇作为,在与其不同主题的新闻报道集合中随机选取一篇作为;阶段2:新闻标题特征表示学习步骤9:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻标题中单词情境化的嵌入语义表示: 其中,表示新闻标题中第d个单词的词嵌入表示,表示新闻标题中第d个单词;步骤10:将词语的嵌入表示输入双向GRU,通过从前向隐层状态到的前向传播和从后向隐层状态到的后向传播对词语的信息进行汇总,最终得到含有上下文信息的词语向量;通过词嵌入以及前向传播和后向传播得到的结果如下: 给定新闻标题中任意一个词语,通过双向GRU获取该词语的前向隐层状态和后向隐层状态,最终将两个隐层状态信息进行拼接操作,得到新闻标题以词语为中心时的标题隐层状态信息;步骤11:使用注意力机制对词语赋予权重,最终将词语信息的表征聚合起来得到新闻标题的特征表示;阶段3:新闻正文与标题交互依赖特征表示学习步骤12:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻正文中每个句子下的单词情境化的嵌入语义表示: 步骤13:利用双向GRU对词语进行编码得到隐层表示: 步骤14:使用注意力机制聚合词语的信息对新闻正文中的句子进行特征表示: 步骤15:对于输入的句子特征表示,通过双向GRU对句子进行编码: 步骤16:使用交互注意力机制来计算在标题特征影响下正文句子的特征表示,输入新闻标题隐层信息与句子的隐层信息进行计算;阶段4:新闻特征表示学习步骤17:通过阶段2和阶段3得到新闻标题的特征表示和新闻正文的特征表示,新闻报道的特征由这两部分的特征表示拼接得到; 步骤18:新闻三元组通过Triplet网络中的特征表示,分别得到、和;其中,与属于同一主题,因此与在空间距离中更加接近;而与属于不同主题,因此与在空间距离中更加远离;对两个距离进行编码,并使用softmax函数进行距离的归一化,得到: 步骤19:构造的损失函数:

全文数据:

权利要求:

百度查询: 西安交通大学 一种联合LW2V与Triplet网络的新闻主题事件检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。