首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于节点链式语义特征与知识融入的谣言检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中南大学

摘要:本发明是一种基于节点链式语义特征与知识融入的谣言检测方法,属于自然语言处理领域。本发明的方法,首先对源贴及其评论进行文本编码,得到每个帖子的语义向量,采用co‑attention机制对其中评论与父节点的链式语义交互进行特征融合;其次,从源贴中提取关键实体,并根据关键实体在维基百科中检索相关文档,再从相关文档中提取出最相关的语句作为证据;最后,将证据语句融入整个会话树,采用图神经网络进一步提取传播特征,最后使用谣言分类器进行分类。本发明充分利用了父子节点之间的链式语义交互作用,并引入外部知识作为证据语句,总体上提高了谣言检测模型的性能,可解释性和早期检测能力。

主权项:1.一种基于节点链式语义特征与知识融入的谣言检测方法,其特征在于,包括以下步骤:步骤S1:基于co-attention的递归节点链式语义特征提取与融入模块:对源贴及其评论进行文本编码,得到每个帖子的语义向量,采用co-attention机制提取出评论对父节点的语义影响,融入到父节点的表征之中,并将这种语义影响向上链式传播,融入到每个节点之中,最终影响到源贴的表征;步骤S2:基于关键实体抽取与ESIM模型的外部知识抽取模块:从步骤S1所述源贴中提取关键实体,根据关键实体在维基百科中检索相关文档,再从相关文档中提取出最相关的语句作为证据语句;步骤S3:基于会话树结构和外部知识的图神经网络谣言检测模块:将步骤S2所述证据语句融入整个会话树,采用图神经网络进一步提取传播特征,最后使用谣言分类器进行分类;所述步骤S1具体包括如下步骤:步骤S11:对于社交媒体谣言检测数据集中的一条数据,其中为该会话中所有的帖子文本集合,按照发布时间顺序排列,其中:为源贴的文本内容;为该会话中的评论数量;为评论和回复组成的会话树结构;采用文本编码器对源贴及其评论进行文本编码;将源贴及其评论的文本内容按照时间顺序排列拼接,并采用分隔符进行分割: ;其中,表示帖子之间的分割字符,表示结尾符号,为拼接运算符;步骤S12:将拼接好的文本进行初步编码,融合分割编码和位置编码,得到后续的BERT模型的最终输入编码向量: ;其中,表示词编码,即对句子中的词按照词表替换为相应的编码;表示分割编码,即用于分割和表示句子结束的特殊符号的编码;表示位置编码,是根据词在整个文本中的位置计算出的一个嵌入;步骤S13:将输入编码向量输入到预训练语言模型BERT中;步骤S14:令表示任意一个父节点,表示节点的第一层的子节点的集合,采用co-attention来提取这些评论中的语义信息,并将这些信息融入到父节点中;步骤S15:得到了融合了评论语义特征的父节点的新表征,这个新表征按照树结构,链式向上更新更上一层的父节点表征,最终影响到整个会话结构的根节点,即社交媒体中的源贴的表征;所述步骤S2中,具体包括如下步骤:步骤S21:首先从源贴的文本中提取出关键信息,并检索相关文档;之后,采用维基百科的公开接口,从维基百科中直接获取相关的json格式的文档集合;在得到文档检索结果之后,过滤掉那些标题中不含有源贴实体的文档,并取出排序前5个文档作为候选文档;步骤S22:采用增强序列推理模型来判断源贴和候选文档中句子关系,从这些文档中提取出关键的能作为证据的候选语句;步骤S23:对于所有的候选语句,按照相关概率进行降序排序,取出相关概率超过50%且排名前20的候选语句作为源贴的证据语句;步骤S3具体包括如下步骤:步骤S31:采用BERT对外部知识抽取模块中获取的证据语句文本进行编码,将每个证据语句作为一个节点,直接连接到代表源贴的根节点上,融入会话树;步骤S32:采用图神经网络提取传播结构特征;将步骤S31构成的新的会话树转化成邻接矩阵;将经过链式语义表征融入的节点特征,与BERT编码的证据语句的节点表征,与邻接矩阵一起输入到图神经网络GAT中,得到融入传播特征的节点表征;步骤S33:将各个节点的特征表示采用均值运算mean进行聚合,得到所有传播节点的融合表征,并通过全连接函数将向量降维,得到便于最终进行分类的数值形式: ;其中,和为全连接感知机的可训练参数;最后采用softmax函数来得到谣言预测的最终分类结果: ;步骤S34:将步骤S33预测的分类结果与真正的分类标签进行比较,采用交叉熵损失来优化模型参数,最小化该损失以不断优化模型: ;其中,为预测结果,为真实标签;当损失函数的值连续多次不再下降时,停止训练,得到训练好的谣言检测分类模型,即谣言分类器;步骤S35:通过步骤S34优化模型参数之后,将待检测的谣言执行所述谣言分类器的步骤S11-步骤S33,得到谣言的最终分类结果;softmax函数计算的的结果为0时表示:不是谣言;的结果为1表示:是谣言。

全文数据:

权利要求:

百度查询: 中南大学 一种基于节点链式语义特征与知识融入的谣言检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。