买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东北林业大学
摘要:本发明涉及一种多角度基于深度DAE网络实现社交机器人检测的无监督方法SC‑DAE,主要用于提高对快速变化的社交机器人检测。首先在微博平台获取最新的数据集,在对数据进行预处理后,然后使用BERT和热编码获得向量表示,并对时间序列使用本文提到的多角度时间计算方法。最后对处理后的数据进行聚类后,每个用户在这三个类别中获得本文提到的两种活跃模式,通过用户的历史活动模式计算出用户的活动偏好值。网络的输入同时连接了用户社交网络关系,进一步约束模型,得到用户对活跃模式的最大概率偏好,从而达到社交机器人检测的目的。
主权项:1.基于深度SC-DAE网络的社交机器人识别算法,其特征在于,包括如下步骤:步骤1:获取微博平台的数据集,同时对数据集进行预处理;步骤2:使用设计的用户历史行为趋势计算方法对多角度的用户特征计算用户的偏好;步骤3:使用社交正则化将深度DAE网络的损失函数进行改进,同时训练网络至收敛;步骤1具体包括如下步骤:步骤1.1:本研究使用的数据来自微博平台特定话题下的用户。使用Scrapy爬虫框架抓取用户数据,获取用户共同好友的信息;步骤1.2:对获得的数据集进行必要的预处理,去除已经不存在的用户,去除文章内容中包含的特殊符号,对缺失信息采用填充和删除两种方式;步骤2具体包括如下步骤:步骤2.1:对多角度特征进行特征工程,使用中文模型"bert-base-chinese"来表示微博帖子的特征,使用余弦相似度算法测量微博帖子内容之间的相似度;用户发布的每条微博之间的时间间隔定义如下θ=[α1,α2,…,αk-1],k代表用户发布的微博数量,发帖时间间隔的方差表示为: 同时,采用信息熵公式4-5来量化用户发布时间间隔序列的规律性,θ1=[α1,α2,…,αm],1≤m≤k-1其中tαi是αi在序列tαi中出现的频率,nαi表示αi在序列θ中出现的次数,公式如下: 对于用户元数据,采用独热编码。最后,利用K-means聚类算法对所获得的特征向量进行聚类;步骤2.2:我们采用偏好算法计算用户对于机器人行为和正常用户的偏好值。如果用户A签入标签X,则pAx是一个非零实数,设计签到计算模块来计算σAx,用户对偏好属性的签入频数为用户对偏好属性的偏好计算公式: 步骤3具体包括如下步骤:步骤3.1:x是原始数据,对于隐藏层和可见层的状态β,ε,针对网络层的偏置值k和b,以及网络层之间的权重矩阵w。同时,我们可以计算出β,ε的联合概率分布,其中τ={W,k,b}: 训练RBM的过程实质上是找到一组τ,使可见层的输出尽可能与训练样本的分布相似。在随后的隐藏层中,我们引入了整流线性单元ReLU非线性激活函数。隐藏层中的计算:hi=ReLUWi·hi-1+biz=ReLUWk·hk+1+bk步骤3.2:使用反向传播BP算法对预训练SC-DAE的参数进行微调,使SC-DAE输入层和输出层之间的总体均方误差最小。对于m个训练样本,S为矩阵社交关系,其中δ为社会正则化项系数,损失函数的计算公式为:h′i=ReLUW′i·h′i+1+b′ix′=ReLUW′1·h2+b1 对于在线预测,SC-DAE只需进行简单的正向计算,即可获得用户对每个类别的概率排名。
全文数据:
权利要求:
百度查询: 东北林业大学 基于深度SC-DAE网络的社交机器人检测算法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。