社交大数据平台垃圾广告用户精准识别方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：摘星社信息科技(浙江)股份有限公司

摘要：针对社交网络中的垃圾广告用户日趋猖獗，向正常用户发布大量的垃圾信息，严重影响人们的用户体验和社交平台的健康发展，本申请创造性的提出社交大数据平台垃圾广告用户精准识别方法，挖掘用户的内容特征和行为特征，提出基于用户的自核心网络结构特征进行垃圾用户识别的方法，提出若干新的网络结构特征用于社交网络垃圾广告用户识别问题，将强化多视图学习应用到社交网络垃圾广告用户识别问题中，在构建用户内容行为特征视图和自核心网络结构特征视图基础上，通过联合训练方法利用无标注数据提高模型的泛化能力,减少对标注数据集的依赖，并缓解单视图学习能力不足的问题，对社交网络中垃圾广告进行甄别与处理简洁快速，准确性高。

主权项：1.社交大数据平台垃圾广告用户精准识别方法，其特征在于，一是首次提出利用用户自核心网络整体的网络结构特征进行社交网络中垃圾用户识别，通过对用户的自核心网络整体性的特征提取，间接表示用户的身份属性，从社区性和信息传播动力学的角度衡量用户的整个自核心网络，提取若干鲁棒性好、对用户代表性强的网络结构特征；二是首次提出把多视图学习的联合训练方法应用到社交网络垃圾广告用户识别问题中，构造两个用户视图的方法，即用户自身特征视图和用户局部网络结构特征视图,对这两个视图使用联合训练，利用大量未标注样本提高基分类器性能，减少对有标注样本的依赖，缓解只使用网络结构特征造成的学习能力不足问题，使用较少人工标记样本建立一个稳定性好、泛化能力强及识别效率高的垃圾广告用户识别模型；步骤1：基于内容特征的垃圾广告用户识别，包括：内容URL率及文本内容近似度、话题标签率及原创率、关注数、粉丝数及用户权威度、简介特征，挖掘用户的内容特征，据此构建用户的内容特征向量；内容URL率定义为：其中Ni是含有的URL总数,N是用户的总的社交文本文本数，fi是第i条社交文本中含有的URL数；文本内容近似度：根据编辑距离计算一个用户发送社交文本的近似度，内容近似度特征TextSimRate定义为：其中，N代表用户的社交文本总数，Li,j代表第i条和第j条有编辑距离算出的近似度，整个分子表示每两条社交文本都做近似度比较，然后把近似度累加求和，最后除以用户的社交文本总数N；话题标签率：计算用户带有话题标签的社交文本数占总社交文本数的比例，作为识别垃圾广告用户的一种特征，用户话题标签率TopicRate定义如下：其中ti是用户社交文本集中第i条社交文本来含有的话题标签数,N为一个用户的总的社交文本数；原创率定义如下：其中oi是用户社交文本集中第i条文本来自转发的量,来自转发则为1否则记为0，N为一个用户的总的社交文本数；定义用户权威度：用户权威度Auty、关注数Nfriend、粉丝数Nfollow代表用户在社交网络中的属性；步骤2：基于行为特征的垃圾广告用户识别，包括：转发率及提及率、发文时间规律及社交文本源特征，挖掘用户的行为特征，构建用户的行为特征向量用于一个用户是否是垃圾广告用户；用户提及率MRate定义如下：其中mi是用户社交文本及中第i条社交文本所拥有的提及@量，N为一个用户的总的社交文本数；用户转发率RepostRate定义如下：其中ri是用户社交文本集中第i条社交文本所拥有的被转发的量,N为一个用户的总的社交文本数；发文时间规律：采用一定间隔时间内发送社交文本的数量占发布的总社交文本数的比例,作为发布社交文本时间模式特征；计算用户每天发布的社交文本中,一分钟内、两分钟内、五分钟内、十五分钟内、一小时内、二小时内、六小时内、二十四小时内、二十四小时以上发布的社交文本数量,然后累加每天的各个时间段内发布的社交文本数量，并分别除以用户的总社交文本数，得到一系列用户行为习惯的特征；社交文本源丰富度特征：采用一组词汇丰富度函数，量化文本中词汇的多样性，刻画用户社交文本发布来源的多样性，使用下面四种丰富度计算函数：H＝V1，T式9，其中T作为总的社交文本源数,VT表示一个用户发布的所有社交文本中出现的不同的社交文本来源数，v代表出现的社交文本源中最高频次，Vm,T在一个用户所有社交文本源中出现m次；步骤3：基于自核心网络结构特征的垃圾广告用户网络结构特征，包括：优势簇聚集因子、平均聚集因子及平均路径长度、模块度及图密度、中心性特征，首先构建用户的自核心网络，然后对整个网络从社会学和信息传播动力学的角度考虑，提出网络结构特征用于社交网络垃圾广告用户识别；平均聚集因子：平均聚集因子c，一个结点u的相邻结点是所有和u直接相连的结点的集合，如果u相邻结点中的每个结点都连接到u相邻结点的其他结点，u的相邻结点完全，并且其聚类因子为1，如果u的相邻结点没有结点互相连接，这个结点的聚类因子将为0，对于整个网络通过计算所有局部值cii＝1,2,…,n的平均值得到整个网络的全局平均聚集因子如下式所示：平均路径长度：衡量信息在网络中流动的效率，为所有结点对之间距离的平均值；中心性特征包括度中心性、特征向量中心性、中间中心性、接近中心性；优势簇聚集因子：只考虑结点度排名靠前的结点连接程度，反映社交网络的拓扑层次性,描述核心层、核心结点的连接情况，描述网络整体情况，一个图G＝V,E代表一个复杂网络，V＞k代表度大于k的结点的集合,N＞k表示度大于k的结点数，E＞k表示这些结点之间的边数，优势簇聚集因子RCC定义如下： RCC表示大于k的结点之间的联系的紧密程度，在本申请设置每个用户个人中心网络的平均度为k；基于不同用户展现的内容行为特征视图：根据用户发布的社交文本内容、历史行为、个人简介这些有用户发起或者直接创造的信息提取特征向量，并组合构成用户的自身特征视图，采用本申请基于行为与内容的垃圾广告用户特征提取方法；以用户的关注列表和交互行为创建用户的自核心网络结构特征视图：第一步，关注自核心网络构建：首先提取每个用户的关注列表，构成一个以用户为中心的星型网络，然后检查任意两两用户之间是否存在关注关系，如果存在则在他们之间添加一条边，不存在则不做任何处理，最终每个用户都有自己的一个关注自核心网络；第二步，交互自核心网络构建：交互关系依据用户在发布社交文本和转发社交文本中与其他用户的互动进行提取，首先提取用户发布过的所有社交文本的主动提及和转发提及的所有的用户名集合，得到每个用户的以自己为中心的星型交互网络，然后检查任意两两用户之间是否存在过关注或者交互行为，存在则在他们之间添加一条边，不存在则不做任何处理，最终每个用户都有自己的一个交互自核心网络；第三步，结构特征值的计算：度量用户自核心网络的结构特性和传播特性,使用复杂网络开源计算包NetWorkX计算基于自核心网络结构特征的垃圾广告用户网络全部结构特征；步骤4：不同用户展现联合训练的垃圾广告用户识别，包括：基于不同用户展现的内容行为特征视图、未标注样本分布不平衡问题处理、改进的联合训练算法，在构建两个独立性强异质性好的用户内容行为特征视图和自核心网络结构特征视图基础上，通过联合训练方法利用无标注数据提高模型泛化能力,减少对标注数据集的依赖，缓解单视图学习能力不足问题；未标注样本分布不平衡问题处理：在数据分布具有明显不平衡的垃圾广告用户识别问题上，本申请提出既考虑有标注的数据分布又考虑大量的无标注的数据的分布信息的方法，具体包括：第1步：对有标注的样本简单计算正负类别比例；第2步：对无标注的样本使用简单K-Means聚类算法把无标注样本聚为两类,计算这两类的比例；第3步：对第1步、第2步中得到的分布情况进行算术平均数计算，从而得到更可靠的数据分布信息；本申请提出动态调整置信度和添加的比例来避免联合训练过程中快速持续恶化，具体做法是：设置最低置信度，每次迭代中选择前K个未标注样本添加到有标注中，只要基学习器性能没有持续多次下降,则正常迭代直到完成指定迭代次数或使用尽未标注样本；否则根据最低置信度过滤前K个，当候选不足时对K进行减半直到退化到K等于有标注样本中正负类最小的比例数；改进的联合训练算法：步骤一：初始化每个视图上有标记的训练集；步骤二：在各个视图上使用有标记的样本进行训练,测试基分类器的性能指标并记录下来,检查如果性能出现连续多次下降则改变加入样本的数量，并调整选择TopK的置信度；步骤三：对选出的置信度高的无标记样本生成伪标记正负例；步骤四：除去未标记样本集中已经选择的样本；步骤五：扩充有标记的训练集进行下一次迭代；步骤六：得到两个联合训练后的基分类器；改进的联合训练算法,使用简单K-means聚类方法对未标注数据集正负例分布做一个预测然后和已知的有标注数据集中的正负比例做调和平均,既考虑少量有标记样本中正负例的分布比例，又考虑大量无标记数据集中的正反例比例，改进标准的联合训练中假设两个数据集分布一致从而限制分类模型泛化能力的问题，此外，通过动态调整联合训练迭代中的置信度和添加的比例来避免联合训练过程中快速持续恶化，提高联合训练的计算效率；步骤1-4执行顺序：挖掘用户的内容特征和行为特征，据此构建用户的特征向量判断一个用户是否是垃圾广告用户，采用基于用户的自核心网络结构特征进行垃圾用户识别的方法，构建用户的自核心网络，然后将强化多视图学习应用到社交网络垃圾广告用户识别问题中，在构建两个独立性强、异质性好的用户内容行为特征视图和自核心网络结构特征视图基础上，通过联合训练方法利用无标注数据提高模型的泛化能力,减少对标注数据集的依赖，并缓解单视图学习能力不足的问题，对社交网络中垃圾广告用户及垃圾信息进行甄别与处理。

全文数据：

权利要求：

百度查询：摘星社信息科技(浙江)股份有限公司社交大数据平台垃圾广告用户精准识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种单元幕墙系统内嵌装饰线条的结构体系

下一篇：一种新能源汽车电池包自加热检测柜

相关技术

一种单元幕墙系统内嵌装饰线条的结构体系

一种新能源汽车电池包自加热检测柜

恒湿机

天然气发动机配气相位控制方法和天然气发动机

用于抓毛织物表面形貌的检测方法

电力标准知识的标签自动化标注方法、系统及存储介质

一种生物质燃料防结焦气化燃烧炉

一种基于Wollaston棱镜的同步移相干涉装置及方法

一种超声波诊断检查防护装置

一种高速机械磨削主轴加工装置

电池单体、储能设备及用电装置

通信方法、装置、存储介质及程序产品

广告相关技术

客制化广告方法_冠捷投资有限公司_202310356083.7

一种室内广告灯箱_深圳市杨邦胜室内设计有限公司_202322962333.X

双窗口广告延迟转化预测系统_广州钛动科技股份有限公司_202410805735.5

一种广告灯箱铝材_广东省亿豪铝业科技有限公司_202420158549.2

一种防盗型广告机箱_深圳市鑫源凯达科技有限公司_202420019261.7

广告处理方法、装置和电子设备_维沃移动通信有限公司_202110106765.3

一种广告设计用测量器_苏州保济科技有限公司_202321935374.3

广告数据获取方法、装置、设备及存储介质_康键信息技术(深圳)有限公司_202110722316.1

一种太阳能广告路灯塔_天津市芳华通讯工程有限公司_202323536251.5

基于大数据学习的广告数据分析系统_广州钛动科技股份有限公司_202411097768.5

用户相关技术

一种基于用户行为的社交平台用户影响力评估方法_长安通信科技有限责任公司_202410671295.9

用户终端以及无线通信方法_株式会社NTT都科摩_201780098138.1

用户终端以及无线通信方法_株式会社NTT都科摩_201880099665.9

用户终端以及无线通信方法_株式会社NTT都科摩_201980096876.1

资源分配的方法及用户设备_北京三星通信技术研究有限公司_201810864506.5

为用户提供所需访问信息的方法及装置_广东南方电信规划咨询设计院有限公司_202310897399.7

检测和校正用户行为中的潜在错误_谷歌有限责任公司_201680024572.0

用户画像生成方法、装置、设备及存储介质_深圳平安医疗健康科技服务有限公司_202110919504.3

用户终端注册方法、装置及通信系统_中国电信股份有限公司卫星通信分公司_202410903471.7

用于用户定义的函数的容器框架_毕威拓软件公司_201880095563.X

垃圾相关技术

湿垃圾发酵设备_上海洁鹿环保科技有限公司_202323462803.2

垃圾桶_台山市捷达电器有限公司_201910504655.5

湿垃圾分解装置_上海洁鹿环保科技有限公司_202323182746.2

湿垃圾处理设施_上海洁鹿环保科技有限公司_202323567903.1

一种用于农村垃圾处理的大件垃圾分离转运装置及方法_深圳市中兴恒熙环保有限公司_202310715277.1

基于智能垃圾处理器的垃圾处理方法、装置及存储介质_宁波方太厨具有限公司_202410568414.8

一种垃圾袋自动收束结构及其垃圾桶_江门市新会区亿诺五金制品有限公司_202323664459.5

一种节能环保市政垃圾车用自动垃圾处理箱_南通伯林环保科技有限公司_202411078633.4

一种社区垃圾站的厨余垃圾干化装置_江苏聚业环保科技工程有限公司_202323650316.9

一种垃圾桶_东阳市立语工贸有限公司_202420199075.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

社交大数据平台垃圾广告用户精准识别方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务