首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向在线社区网络欺凌的角色挖掘分析方法_复旦大学_202310181307.5 

申请/专利权人:复旦大学

申请日:2023-03-01

公开(公告)日:2023-12-12

公开(公告)号:CN116340619B

主分类号:G06F16/9535

分类号:G06F16/9535;G06F16/951;G06Q50/00;G06F18/23213;G06N3/006;G06F40/216;G06F40/289;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2023.12.12#授权;2023.07.14#实质审查的生效;2023.06.27#公开

摘要:本发明属于网络欺凌技术领域,具体为一种面向在线社区网络欺凌的角色挖掘分析方法。本发明首先对角色特征进行了包含文本层面、情感层面和用户层面在内的细粒度、多层次建模;然后,基于特征建模后的数据特点设计了混合空间中差分进化辅助的K‑means算法,该算法利用差分进化的全局优化特性并在聚类寻优过程中引入新的距离定义模式,以处理同时存在连续变量和类别变量的混合变量聚类问题,进而基于对个体进行的特征建模和聚类得到在线社区中不同场景下的网络欺凌角色划分,并对角色构成进行详细的分析。本发明可以满足在线社区网络欺凌场景下角色的挖掘与分析需求,准确捕捉、描述并分析在线社区网络欺凌真实场景不同角色的差异。

主权项:1.一种面向在线社区网络欺凌的角色挖掘分析方法,其特征在于,包括如下步骤:一基于在线社区爬取网络欺凌真实数据,形成网络欺凌真实场景数据集,对角色进行细粒度、多层次特征建模;基于用户行为特征建模,用户行为特征由三个层面组成:文本层面、情感层面和用户层面;在每个层面上,利用这些特征作为变量构建模型,生成合理的人群群体作为网络欺凌发生时潜在的社会角色;在文本层面,特征建模分为侮辱词和关键词两部分;在侮辱词部分,将核心侮辱词集和扩展侮辱词集与在线社区中爬取的网络欺凌真实数据进行比较,得到交集,计算得到核心侮辱词和扩展侮辱词个数;在情感层面,对待分析的文本进行情感极性预测、情绪类型划分和情感打分,得到文本的情感极性、情绪类型和情感分数;在用户层面,基于网络欺凌场景下在线社区用户的个人信息,选取等级、用户是否认证、历史发文数、关注数量以及粉丝数量作为用户基本信息特征;同时,利用在线社区用户个人主页中所有发表过的博文进行情感极性分析,并统计负面极性博文占总博文数量的比例作为个人评论的总极性特征;此外,用户在欺凌场景下的点赞数和评论数以及用户所有博文的点赞数、转发数和评论数也纳入特征建模中;其中:由三个层面组成的用户行为特征包括类别变量和连续变量,情感层面的情感极性和情感类型,以及用户层面的用户是否认证是无顺序关联的类别变量,其他特征为连续变量;二利用差分进化辅助的K-means算法将包含三个层面特征的个体进行聚类以对形成的潜在的网络欺凌角色进行划分,确定聚类个数,并对聚类结果进行解释性分析;1对步骤一所提取的特征进行能够使计算机识别的数字化操作,形成一个混合空间中的聚类问题,确定聚类优化目标并对变量进行连续化操作;将差分进化引入原始的K-means聚类算法,使之运用全局优化性提高K-means的聚类性能,则原始聚类问题转化为优化聚类质心的优化问题:待聚类的网络欺凌数据集为D={d1,d2,…,dn},其中每个数据dii=1,2,…,n为m维,待聚类数目为K,聚出来的类簇内个体具有相同的行为模式,即同一类簇内的个体属于一类角色;假设xjj=1,2,…,K为待优化所有质心,X=x1,x2,…,xk,大小为K×m,优化聚类质心的优化问题如式1所示: 假设原始网络欺凌特征数据集中连续变量为Dcon维,类别变量为Dcat维,则问题总维度为Dcon+Dcat=m,其中每一维类别变量对应的可选择数目为N1,N2,…,Ncat;根据对应可选择数目,将每一维类别变量转化为对应数目的连续变量,取值范围为0,1,将这些变换后的连续变量定义为其对应类别变量的选择概率向量;经过连续化之后,问题从原来的m维转换为维;为了简化计算,进一步将待优化矩阵转化为向量的形式,即将原来K×m矩阵转换为向量形式;在计算距离的数据点类别划分操作中,使用基于Gower距离的距离度量dGow;在目标函数的设计上,基于K-means中类簇内点距离其类簇质心距离最小的准则基础上,考虑质心之间的距离作为目标函数的评判准则之一,如式5所示; 最后,将式5代入式1形成针对当前网络欺凌场景混合变量聚类优化问题设计的目标函数;2混合空间中差分进化辅助的K-means算法的进化操作与数据离散化操作,以得到最优的类簇划分;首先进行向量初始化,生成多个均匀且随机选择的目标向量作为初始种群;然后在初始种群中随机选择两个目标向量,目标向量的比例差与当前种群任意的第三个目标向量相加,以产生突变向量;随后进入交叉操作阶段,此阶段引入试验向量以确保试验向量可从目标向量和突变向量中继承至少一种成分;最后,进行一个贪婪的选择方案,以衡量达到最佳性能的程度,在此阶段中,试验向量和目标向量转换为原始混合变量状态,转换规则为:对于一个类别变量,取其对应的选择概率向量中最大值的位置索引作为其类别值;通过比较从交叉操作阶段获得的试验向量质量与其对应的目标向量质量,以确定谁可以存活到下一代,解决方案的质量是使用步骤二的1中针对当前网络欺凌场景混合变量聚类优化问题设计的目标函数计算的,如果试验向量具有较低或相等的适应度函数值,则它将替换下一代的相应目标向量,否则,旧的目标向量将保留在下一代中;3对步骤2处理后的包含连续变量和类别变量的向量进行聚类,确定聚类个数,得到不同社交网络欺凌场景下的典型角色划分,并对聚类得到的类簇内个体进行基于情感及用户社会关系的定性归纳的解释性分析。

全文数据:

权利要求:

百度查询: 复旦大学 一种面向在线社区网络欺凌的角色挖掘分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。