首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

融合近邻标题图的新闻话题发现方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学

摘要:本发明涉及融合近邻标题图的新闻话题发现方法,属于自然语言处理领域。本发明包括:构建新闻话题数据集;使用Bert模型编码新闻标题,增强标题的表征,之后构建新闻近邻标题图优化相似标题的关联关系,通过多个图卷积层学习近邻标题图的表征,融入标题的关联结构信息,之后使用一种融合因子融合图卷积网络学习的标题全局特征和深度网络学习的新闻文档局部特征,最后使用指导模块统一指导两个模块优化参数。本发明通过融合标题的近邻关系并融入新闻文档的表征实现了质量较高的新闻表征,从获取的表征中聚类出话题簇,为后续任务提供了支撑。

主权项:1.融合近邻标题图的新闻话题发现方法,其特征在于:所述方法的具体步骤包括:Step1、通过爬虫技术爬取热点案件舆情新闻,选取相关新闻进行新闻话题数据集的构建;通过对爬取的新闻进行分析使每条新闻只属于一个案件话题,人工标注新闻与哪个案件话题相关,经过数据筛选和预处理;Step2、通过在话题发现的过程中引入标题的关联关系,构建近邻标题图,通过图卷积网络提取标题的全局特征;为避免噪声数据的影响,同时使用深度网络提取新闻文档的局部特征,加入到标题的编码过程中去,从而更好地实现话题新闻聚类;所述Step2的具体步骤如下:Step2.1、编码新闻话题数据集中标题部分,通过BERT预训练模型训练完成后能够获得标题的表示,以便接下来构建近邻标题图;Step2.2、采用K近邻算法构建新闻近邻标题图来提取新闻标题的全局特征;Step2.3、提取新闻话题数据集中文档的局部特征,使用深度神经网络自编码器来学习有效的数据表示;Step2.4、构建的近邻标题图蕴含了标题全局结构信息,使用图卷积网络提取近邻标题图中的结构特征,并将自编码器提取到的文档局部特征集成到图卷积网络中;通过融合因子逐层连接自编码器和图卷积网络将文档的局部特征有效融合到标题的全局特征中;Step2.5、将Step2.3和Step2.4进行聚类优化训练,经过训练达到稳定后,将图卷积网络最终输出的聚类分布作为新闻话题发现的最终结果;所述Step2.4具体包括:进行标题全局特征的提取:构建的近邻标题图蕴含了标题全局结构信息,使用图卷积网络提取近邻标题图中的结构特征,并将自编码器提取到的文档局部特征集成到图卷积网络中,图卷积网络第l层提取的表示通过卷积运算得到; 其中为归一化的拉普拉斯矩阵,I为邻接矩阵M的单位对角阵,D为节点度矩阵,将图卷积网络学到的前一层表示Ul-1向下一层传播得到新的表示Ul;为了使图卷积网络学习到的新闻话题数据特征同时具有标题的全局特征和文档的局部特征,将两种表示Ul-1和Hl-1通过融合因子结合在一起,得到一种更全面的数据表示; α是平衡两种表示的权重系数,通过融合因子逐层连接自编码器和图卷积网络将文档的局部特征有效融合到标题的全局特征中,融合两种表示后,将输入到图卷积网络中得到表示Ul; 以此类推得到图卷积网络最后一层输出的表示UL;网络的输出端连接了一个softmax多分类器,最终输出的结果为分布U; 得到的结果U是一个概率分布,其元素uij表示新闻样本i属于簇中心j的概率;所述Step2.5具体包括:通过指导模块将文档特征提取模块和标题全局特征提取模块统一到一个框架中同时进行端到端的聚类优化训练;其中,文档特征提取模块用于提取新闻话题数据集中文档的局部特征,使用深度神经网络自编码器来学习有效的数据表示;标题全局特征提取模块用于:构建的近邻标题图蕴含了标题全局结构信息,使用图卷积网络提取近邻标题图中的结构特征,并将自编码器提取到的文档局部特征集成到图卷积网络中;通过融合因子逐层连接自编码器和图卷积网络将文档的局部特征有效融合到标题的全局特征中;对于第i个样本和第j个簇,引用自由度为1的student-t分布作为核函数衡量自编码器的表示hi和簇心μj之间的距离; 其中hi是表示HL的第i行,μj是经过K-means算法初始化后的簇心,将qij视为文档样本i被分配到簇j的概率,Q即为所有文档样本分配到簇的分布;为了得到高置信度的分配来迭代聚类结果,提高聚类准确度,构造一个目标分布P来辅助模型训练; 在目标分布P中,每一个在文档样本分配分布Q中的聚类分配都被先平方再归一化处理,这样获得更高置信度的聚类分配,迫使簇内的样本更加接近簇心,簇与簇间的距离最大化,分配更加清晰;指导模块的损失函数之一为分布Q和目标分布P之间的KL散度损失; 通过最小化损失函数更新参数,目标分布P使自编码器学习到更接近簇心的样本文档聚类表示;为了使标题全局特征提取模块和文档局部特征提取模块在训练迭代过程中趋于一致,需要将两个模块统一在同一目标分布中,因此使用目标分布P指导图卷积网络输出的蕴含标题全局特征的样本分布U,指导模块的损失函数之二为分布U和目标分布P之间的KL散度损失; 通过指导模块的不同权重参数将两种不同表示的聚类分配统一在同一个损失函数中,模型的整体损失函数为 β为平衡损失函数一和损失函数二的权重参数;整个模型经过训练达到稳定后,将图卷积网络最终输出的聚类分布U作为新闻话题发现的最终结果。

全文数据:

权利要求:

百度查询: 昆明理工大学 融合近邻标题图的新闻话题发现方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。