首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

社交大数据平台垃圾广告用户精准识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:摘星社信息科技(浙江)股份有限公司

摘要:针对社交网络中的垃圾广告用户日趋猖獗,向正常用户发布大量的垃圾信息,严重影响人们的用户体验和社交平台的健康发展,本申请创造性的提出社交大数据平台垃圾广告用户精准识别方法,挖掘用户的内容特征和行为特征,提出基于用户的自核心网络结构特征进行垃圾用户识别的方法,提出若干新的网络结构特征用于社交网络垃圾广告用户识别问题,将强化多视图学习应用到社交网络垃圾广告用户识别问题中,在构建用户内容行为特征视图和自核心网络结构特征视图基础上,通过联合训练方法利用无标注数据提高模型的泛化能力,减少对标注数据集的依赖,并缓解单视图学习能力不足的问题,对社交网络中垃圾广告进行甄别与处理简洁快速,准确性高。

主权项:1.社交大数据平台垃圾广告用户精准识别方法,其特征在于,一是首次提出利用用户自核心网络整体的网络结构特征进行社交网络中垃圾用户识别,通过对用户的自核心网络整体性的特征提取,间接表示用户的身份属性,从社区性和信息传播动力学的角度衡量用户的整个自核心网络,提取若干鲁棒性好、对用户代表性强的网络结构特征;二是首次提出把多视图学习的联合训练方法应用到社交网络垃圾广告用户识别问题中,构造两个用户视图的方法,即用户自身特征视图和用户局部网络结构特征视图,对这两个视图使用联合训练,利用大量未标注样本提高基分类器性能,减少对有标注样本的依赖,缓解只使用网络结构特征造成的学习能力不足问题,使用较少人工标记样本建立一个稳定性好、泛化能力强及识别效率高的垃圾广告用户识别模型;步骤1:基于内容特征的垃圾广告用户识别,包括:内容URL率及文本内容近似度、话题标签率及原创率、关注数、粉丝数及用户权威度、简介特征,挖掘用户的内容特征,据此构建用户的内容特征向量;内容URL率定义为:其中Ni是含有的URL总数,N是用户的总的社交文本文本数,fi是第i条社交文本中含有的URL数;文本内容近似度:根据编辑距离计算一个用户发送社交文本的近似度,内容近似度特征TextSimRate定义为:其中,N代表用户的社交文本总数,Li,j代表第i条和第j条有编辑距离算出的近似度,整个分子表示每两条社交文本都做近似度比较,然后把近似度累加求和,最后除以用户的社交文本总数N;话题标签率:计算用户带有话题标签的社交文本数占总社交文本数的比例,作为识别垃圾广告用户的一种特征,用户话题标签率TopicRate定义如下:其中ti是用户社交文本集中第i条社交文本来含有的话题标签数,N为一个用户的总的社交文本数;原创率定义如下:其中oi是用户社交文本集中第i条文本来自转发的量,来自转发则为1否则记为0,N为一个用户的总的社交文本数;定义用户权威度:用户权威度Auty、关注数Nfriend、粉丝数Nfollow代表用户在社交网络中的属性;步骤2:基于行为特征的垃圾广告用户识别,包括:转发率及提及率、发文时间规律及社交文本源特征,挖掘用户的行为特征,构建用户的行为特征向量用于一个用户是否是垃圾广告用户;用户提及率MRate定义如下:其中mi是用户社交文本及中第i条社交文本所拥有的提及@量,N为一个用户的总的社交文本数;用户转发率RepostRate定义如下:其中ri是用户社交文本集中第i条社交文本所拥有的被转发的量,N为一个用户的总的社交文本数;发文时间规律:采用一定间隔时间内发送社交文本的数量占发布的总社交文本数的比例,作为发布社交文本时间模式特征;计算用户每天发布的社交文本中,一分钟内、两分钟内、五分钟内、十五分钟内、一小时内、二小时内、六小时内、二十四小时内、二十四小时以上发布的社交文本数量,然后累加每天的各个时间段内发布的社交文本数量,并分别除以用户的总社交文本数,得到一系列用户行为习惯的特征;社交文本源丰富度特征:采用一组词汇丰富度函数,量化文本中词汇的多样性,刻画用户社交文本发布来源的多样性,使用下面四种丰富度计算函数:H=V1,T式9,其中T作为总的社交文本源数,VT表示一个用户发布的所有社交文本中出现的不同的社交文本来源数,v代表出现的社交文本源中最高频次,Vm,T在一个用户所有社交文本源中出现m次;步骤3:基于自核心网络结构特征的垃圾广告用户网络结构特征,包括:优势簇聚集因子、平均聚集因子及平均路径长度、模块度及图密度、中心性特征,首先构建用户的自核心网络,然后对整个网络从社会学和信息传播动力学的角度考虑,提出网络结构特征用于社交网络垃圾广告用户识别;平均聚集因子:平均聚集因子c,一个结点u的相邻结点是所有和u直接相连的结点的集合,如果u相邻结点中的每个结点都连接到u相邻结点的其他结点,u的相邻结点完全,并且其聚类因子为1,如果u的相邻结点没有结点互相连接,这个结点的聚类因子将为0,对于整个网络通过计算所有局部值cii=1,2,…,n的平均值得到整个网络的全局平均聚集因子如下式所示:平均路径长度:衡量信息在网络中流动的效率,为所有结点对之间距离的平均值;中心性特征包括度中心性、特征向量中心性、中间中心性、接近中心性;优势簇聚集因子:只考虑结点度排名靠前的结点连接程度,反映社交网络的拓扑层次性,描述核心层、核心结点的连接情况,描述网络整体情况,一个图G=V,E代表一个复杂网络,V>k代表度大于k的结点的集合,N>k表示度大于k的结点数,E>k表示这些结点之间的边数,优势簇聚集因子RCC定义如下: RCC表示大于k的结点之间的联系的紧密程度,在本申请设置每个用户个人中心网络的平均度为k;基于不同用户展现的内容行为特征视图:根据用户发布的社交文本内容、历史行为、个人简介这些有用户发起或者直接创造的信息提取特征向量,并组合构成用户的自身特征视图,采用本申请基于行为与内容的垃圾广告用户特征提取方法;以用户的关注列表和交互行为创建用户的自核心网络结构特征视图:第一步,关注自核心网络构建:首先提取每个用户的关注列表,构成一个以用户为中心的星型网络,然后检查任意两两用户之间是否存在关注关系,如果存在则在他们之间添加一条边,不存在则不做任何处理,最终每个用户都有自己的一个关注自核心网络;第二步,交互自核心网络构建:交互关系依据用户在发布社交文本和转发社交文本中与其他用户的互动进行提取,首先提取用户发布过的所有社交文本的主动提及和转发提及的所有的用户名集合,得到每个用户的以自己为中心的星型交互网络,然后检查任意两两用户之间是否存在过关注或者交互行为,存在则在他们之间添加一条边,不存在则不做任何处理,最终每个用户都有自己的一个交互自核心网络;第三步,结构特征值的计算:度量用户自核心网络的结构特性和传播特性,使用复杂网络开源计算包NetWorkX计算基于自核心网络结构特征的垃圾广告用户网络全部结构特征;步骤4:不同用户展现联合训练的垃圾广告用户识别,包括:基于不同用户展现的内容行为特征视图、未标注样本分布不平衡问题处理、改进的联合训练算法,在构建两个独立性强异质性好的用户内容行为特征视图和自核心网络结构特征视图基础上,通过联合训练方法利用无标注数据提高模型泛化能力,减少对标注数据集的依赖,缓解单视图学习能力不足问题;未标注样本分布不平衡问题处理:在数据分布具有明显不平衡的垃圾广告用户识别问题上,本申请提出既考虑有标注的数据分布又考虑大量的无标注的数据的分布信息的方法,具体包括:第1步:对有标注的样本简单计算正负类别比例;第2步:对无标注的样本使用简单K-Means聚类算法把无标注样本聚为两类,计算这两类的比例;第3步:对第1步、第2步中得到的分布情况进行算术平均数计算,从而得到更可靠的数据分布信息;本申请提出动态调整置信度和添加的比例来避免联合训练过程中快速持续恶化,具体做法是:设置最低置信度,每次迭代中选择前K个未标注样本添加到有标注中,只要基学习器性能没有持续多次下降,则正常迭代直到完成指定迭代次数或使用尽未标注样本;否则根据最低置信度过滤前K个,当候选不足时对K进行减半直到退化到K等于有标注样本中正负类最小的比例数;改进的联合训练算法:步骤一:初始化每个视图上有标记的训练集;步骤二:在各个视图上使用有标记的样本进行训练,测试基分类器的性能指标并记录下来,检查如果性能出现连续多次下降则改变加入样本的数量,并调整选择TopK的置信度;步骤三:对选出的置信度高的无标记样本生成伪标记正负例;步骤四:除去未标记样本集中已经选择的样本;步骤五:扩充有标记的训练集进行下一次迭代;步骤六:得到两个联合训练后的基分类器;改进的联合训练算法,使用简单K-means聚类方法对未标注数据集正负例分布做一个预测然后和已知的有标注数据集中的正负比例做调和平均,既考虑少量有标记样本中正负例的分布比例,又考虑大量无标记数据集中的正反例比例,改进标准的联合训练中假设两个数据集分布一致从而限制分类模型泛化能力的问题,此外,通过动态调整联合训练迭代中的置信度和添加的比例来避免联合训练过程中快速持续恶化,提高联合训练的计算效率;步骤1-4执行顺序:挖掘用户的内容特征和行为特征,据此构建用户的特征向量判断一个用户是否是垃圾广告用户,采用基于用户的自核心网络结构特征进行垃圾用户识别的方法,构建用户的自核心网络,然后将强化多视图学习应用到社交网络垃圾广告用户识别问题中,在构建两个独立性强、异质性好的用户内容行为特征视图和自核心网络结构特征视图基础上,通过联合训练方法利用无标注数据提高模型的泛化能力,减少对标注数据集的依赖,并缓解单视图学习能力不足的问题,对社交网络中垃圾广告用户及垃圾信息进行甄别与处理。

全文数据:

权利要求:

百度查询: 摘星社信息科技(浙江)股份有限公司 社交大数据平台垃圾广告用户精准识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。