买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东营科技职业学院
摘要:本发明公开了一种基于人工智能的假新闻识别方法及系统,方法包括:数据采集、数据预处理、新闻特征提取、构建假新闻识别模型和假新闻识别。本发明属于新闻识别技术领域,具体是指一种基于人工智能的假新闻识别方法及系统,本方案采用多种注意机制来关注不同层级上的重要特征,综合考虑文本和图像得到新闻特征,基于新闻类型、新闻领域和不同特征的组合构建特征集;设计新闻文本‑图像匹配识别器和同领域内新闻真实性识别器,设计相似层计算文本和图像的相似度,完成新闻的文本和图像的匹配检测,设计图构建层和卷积层更新节点特征,完成同领域内新闻真实性检测,将两个识别器的输出加权求和作为假新闻识别结果,提高假新闻识别的准确性。
主权项:1.一种基于人工智能的假新闻识别方法,其特征在于:该方法包括以下步骤:步骤S1:数据采集;步骤S2:数据预处理;步骤S3:新闻特征提取,采用多种注意机制来关注不同层级上的重要特征,提取文本数据的全局特征和局部特征,综合考虑文本数据和图像数据得到新闻特征,并基于新闻类型、新闻领域和不同特征的组合构建特征集;步骤S4:构建假新闻识别模型,设计新闻文本-图像匹配识别器和同领域内新闻真实性识别器,设计相似层计算文本和图像之间的相似度,完成新闻的文本数据和图像数据的匹配检测,设计图构建层和卷积层更新节点特征,完成同领域内新闻真实性检测,通过将两个识别器的输出加权求和作为假新闻识别结果;步骤S5:假新闻识别;在步骤S3中,所述新闻特征提取分别提取文本数据和图像数据的特征,具体包括以下步骤:步骤S31:文本数据特征提取,提取预处理后的文本数据的全局特征和局部特征,包括以下步骤:步骤S311:文本数据全局特征提取,将预处理后的文本分为字符级和句子级,由字符级特征向量得到句子级特征向量,并使用不同的注意机制来关注在不同级别上的重要特征;步骤S312:文本数据局部特征提取,包括以下步骤:步骤S3121:卷积,使用1D卷积神经网络从字符级特征向量中提取局部特征,卷积核We∈D×L,L是卷积核的长度,等于编码器BiLSTM单元输出的维数,D是卷积核的高度,将卷积核应用于不同的字符间隔得到每个句子的局部特征映射={m1,…,mj,…,mq-D+1};1D卷积神经网络所用公式如下: ;式中,be是卷积核的偏置项,、和分别是文本的第i句第1个字符到第D个字符、第j个字符到第j+D+1个字符和第q-D+1个字符到第q个字符的间隔区间,m1、mj和mq-D+1分别是、和的局部特征映射;步骤S3122:计算局部特征重要性权重,使用局部特征注意机制计算每个句子的特征映射对构建当前文本的语义的重要性权重;所用公式如下: ; ;式中,是的隐藏表示,是的局部特征重要性权重,Wl、bl和rl分别是局部特征注意机制的权重矩阵、偏置项和查询向量;步骤S3123:计算文本数据的局部特征,基于每个句子的特征映射和局部特征重要性权重得到文本数据的局部特征,和分别是文本的第1句和第p句的局部特征映射,和分别是和的局部特征重要性权重;步骤S32:图像数据特征提取,使用GIST算法和SIFT算法分别提取预处理后的图像数据的全局特征k和局部特征z;步骤S33:计算新闻特征,将文本数据的全局特征a和局部特征u与图像数据的全局特征k和局部特征z相拼接,得到新闻特征;步骤S34:构建特征集,基于新闻类型、文本数据的全局特征a和局部特征u与图像数据的全局特征k和局部特征z构建第一特征集,基于新闻类型、新闻领域和新闻特征构建第二特征集;在步骤S311中,所述文本数据全局特征提取具体包括以下步骤:步骤S3111:计算字符级特征向量,使用Word2Vec模型将预处理后的文本数据转换为字符级表示向量,将BiLSTM作为字符级编码器,BiLSTM包含两个方向的LSTM结构,分别用于捕捉字符在每个位置的上下文信息,通过字符级编码器获得文本的第i句第j个字符的前向隐藏层结果和后向隐藏层结果,结合前向和后向隐藏层结果,得到文本的第i句第j个字符的特征向量;步骤S3112:计算字符级重要性权重,使用字符级注意机制计算每个字符的特征向量对构建当前句子的语义的重要性权重;所用公式如下: ; ;式中,是的隐藏表示,tanh(·)是激活函数,是的字符级重要性权重,Wf、bf和rf分别是字符级注意机制的权重矩阵、偏置项和查询向量,T是转置操作;步骤S3113:计算句子级特征向量,基于字符级特征向量和字符级重要性权重得到句子级表示向量,将BiLSTM作为词级编码器,通过字符级编码器获得文本的第i句的前向隐藏层结果和后向隐藏层结果,结合前向和后向隐藏层结果,得到文本的第i句的特征向量;步骤S3114:计算句子级重要性权重,使用句子级注意机制计算每个句子的特征向量对构建当前文本的语义的重要性权重;所用公式如下: ; ;式中,是的隐藏表示,是的句子级重要性权重,Wv、bv和rv分别是句子级注意机制的权重矩阵、偏置项和查询向量;步骤S3115:计算文本数据的全局特征,基于句子级特征向量和句子级重要性权重得到文本数据的全局特征,和分别是文本的第1句和第p句的特征向量,和分别是和的句子级重要性权重;在步骤S4中,所述构建假新闻识别模型具体包括以下步骤:步骤S41:设计新闻文本-图像匹配识别器,新闻文本-图像匹配识别器包括第一输入层、相似层和匹配输出层;第一输入层接收第一特征集,相似层计算文本和图像的总相似度;匹配输出层输出匹配识别结果;包括以下步骤:步骤S411:设计相似层,相似层分别计算文本和图像的全局相似度、局部相似度和全局-局部相似度,加权求和得到总相似度,所用公式如下: ; ; ; ;式中,S是总相似度,S1、S2和S3分别是全局相似度、局部相似度和全局-局部相似度,β1、β2和β3分别是全局相似度权重、局部相似度权重和全局-局部相似度权重,Sim(·)是余弦相似度函数,max(·)是求最大值函数,a和u分别是文本数据的全局特征和局部特征,k和z分别是图像数据的全局特征和局部特征;步骤S412:匹配输出层,所用公式如下: ;式中,是文本-图像匹配识别器输出的匹配识别结果,Sigmoid(·)是激活函数;步骤S42:设计同领域内新闻真实性识别器,同领域内新闻真实性识别器包括第二输入层、图构建层、卷积层和真实性输出层;第二输入层接收第二特征集;图构建层基于属于同领域的新闻特征构建同领域关系图;卷积层用来更新同领域关系图的节点特征;真实性输出层输出真实性识别结果;步骤S43:计算假新闻识别模型输出,将新闻文本-图像匹配识别器和同领域内新闻真实性识别器的输出加权求和作为假新闻识别模型的最终识别结果;在步骤S42中,所述设计同领域内新闻真实性识别器具体包括以下步骤:步骤S421:设计图构建层,为每个领域的新闻构建一个同领域关系图,每个新闻作为一个节点,节点内的信息是新闻特征,基于余弦相似度来定义节点之间的边,预先设定相似阈值,若两个节点内新闻特征的余弦相似度大于等于相似阈值,则两个节点之间存在边;否则,两个节点之间不存在边;步骤S422:设计卷积层,卷积层的层为N,卷积层通过卷积操作利用相邻节点来更新节点的新闻特征,更新节点特征所用公式如下: ;式中,Fl+1和Fl分别是第l+1层和第l层卷积层的节点特征矩阵,Gl是第l层卷积层的权重矩阵,U是邻接矩阵,I是单位矩阵,是添加自连接的邻接矩阵,,是的度矩阵,ReLU(·)是激活函数;步骤S423:真实性输出层,所用公式如下: ;式中,是同领域内新闻真实性识别器输出的真实性识别结果,FN是第N层卷积层的节点特征矩阵,Wz和bz分别是同领域内新闻真实性识别器的权重矩阵和偏置项。
全文数据:
权利要求:
百度查询: 东营科技职业学院 一种基于人工智能的假新闻识别方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。