首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江工业大学

摘要:一种基于A‑TrAdaboost算法的多源社区标签发展趋势预测方法,包括以下步骤:1构建问答社区中的标签网络;2计算源领域社区和目标领域社区结构的向量表征3计算源领域与目标领域之间的结构相似性;4构建基于A‑TrAdaboost算法的多源社区标签流行性预测模型。本发明利用网络图表征的方法,得到各个网络的向量表征,进而计算网络之间的相似性,作为不同问答社区之间的领域距离,并将网络结构之间的相似性作为多源迁移学习算法TrAdaboost的初始权重,在进行跨社区预测新标签流行性问题时,能够较好的避免多源迁移中的负迁移问题,提高模型的训练时间和精度。

主权项:1.一种基于A‑TrAdaboost算法的多源社区标签发展趋势预测方法,其特征在于,所述方法包括如下步骤:步骤1:构建问答社区中标签网络,如果同一个问题帖子下边出现多个标签,则认为这些标签具有连边,构建问答社区标签网络,得到源领域和目标领域社区的网络结构集合步骤2:计算各社区中网络结构的向量表征,采用graph2vec的方法,将每个网络Gi∈Ω用一个维度为d的向量来进行表征,最后学习得到每个社区网络图结构的向量表征Vi;步骤3:计算源领域与目标领域之间的结构相似性,计算源领域网络结构表征向量和和目标领域VT之间的余弦相似性γt:步骤4:构建基于A‑TrAdaboost算法的多源社区标签流行性预测模型,通过提取源领域DSt和目标领域DT中的样本标签及特征数据,把步骤3中计算的相似性γt作为各源领域迁移到目标领域上的初始权重,通过有权SVM的方法,不断迭代更新不同训练样本中的权重,得出最后的训练模型。

全文数据:一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法技术领域[0001]本发明涉及数据挖掘、图结构分析技术,特别是涉及一种基于A-TrAdabo〇st算法的多源社区标签发展趋势预测方法。背景技术[0002]当前随着移动互联网和智能设备的广泛普及,改变了人们的生活方式,人们更倾向于在网络上发表自己看法和搜集自己需要的信息,因此在线问答社区变得越来越活跃和流行。由于问答社区中的帖子数量巨大,用户在问答社区中获取的信息主要根据问题答案的标签来进行筛选和推荐,随着时间的推移,标签的数量也越来与巨大,问答社区中的标签研究日益成为关注的热点。[0003]傅晨波等人(见文献[1]FuC,ZhengY,LiS,etal.PredictingthepopularityoftagsinStackExchangeQAcommunities[C]ComplexSystemsandNetworksIWCSN,2017InternationalWorkshopon.IEEE,2017:90-95.即傅晨波,郑永立,李诗迪.预测StackExchange问答社区标签流行性[C]复杂的系统和网络(IWCSN,2017国际研讨会.IEEE,2017:90-95。)已经研究了问答社区中新标签未来的流行性发展趋势预测,但是其预测模型仅根据单个社区中标签数据来进行模型构建。在这种情况下,当在一些数据量较小的社区或者新出现的社区中使用模型时,由于标记数据样本较少,会使得训练后的模型并不理想。迀移学习从一个相关并同时拥有丰富训练样本的领域中训练模型,并分享到目标领域。利用迀移学习可以解决目标领域训练数据较少的缺陷。因此我们利用迀移学习的思路在其他较大社区中进行模型训练,然后再迀移到目标社区,以提高预测模型的精度。[0004]单源迀移时常常会遇到负迀移的状况,使得迀移过来的效果并不好。为了解决这一问题,其中一种方法是设置不同的样本权重,通过设置不同样本之间的权重,选择出对目标任务有帮助的样本,提高迀移学习的效果。TrAdaboost见文献[2]DaiW,YangQ,XueGR,etal.Boostingfortransferlearning[C]InternationalConferenceonMachineLearning.ACM,2007:193-200.即戴文渊,杨强,薛贵荣,俞勇.迀移学习集成[C]国际机器学习会议.ACM,2007:193-200.方法利用迭代更新权重的方法,通过对每次训练的模型在目标领域上的分类效果,计算误差,反馈更新样本的权重,得出最后的分类模型。另外一种方法是多源迀移的模型框架。已有的多源迀移学习方法已经很多,目前比较常用的迀移学习方法是根据不同领域之间的特征分布的距离作为其衡量领域之间的相似性,进而对不同领域构建的基分类器进行加权。在使用迀移学习的方法来预测问答社区标签流行性发展趋势的预测问题中,根据特征分布之间的差异性来衡量不同领域之间的相似性大小,不能取得较好的迀移提升效果。发明内容[0005]为了解决跨社区标签流行性的预测问题,为了较好的衡量涉及网络结构的不同领域之间的差异,和改善TrAdaboost在在具有负迀移数据源上的迀移效果的鲁棒性,本发明提出一种基于网络结构相似性的A-TrAdaboost算法来预测在线问答社区中新标签在未来的流行性发展趋势。[0006]本发明解决其技术问题所采用的技术方案如下:[0007]一种基于A-TrAdabOOSt算法的多源社区标签发展趋势预测方法,包括如下步骤:[0008]步骤1:构建问答社区中标签网络,如果同一个问题帖子下边出现多个标签,则认为这些标签具有连边,构建问答社区标签网络,得到源领域和目标领域社区的网络结构集合Ω={Gs,7、,…,7V,,ϊ,}[0009]步骤2:计算各社区中网络结构的向量表征,采用graph2vec的方法,将每个网络G1GΩ用一个维度为d的向量来进行表征,最后学习得到源领域网络结构表征向量V5i和目标领域结构向量表征Vt;[0010]步骤3:计算源领域与目标领域之间的结构相似性,计算源领域网络结构表征向量和目标领域Vt之间的余弦相似性γt:[0012]步骤4:构建基于A-TrAdaboost算法的多源社区标签流行性预测模型。通过提取源领域2¾和目标领域Dt中的样本标签及特征数据,把步骤3中计算的相似性γ*作为各源领域上样本的初始权重,通过有权SVM的方法,训练出预测模型,然后不断迭代更新不同训练样本中的权重,得出最后的训练模型。[0013]进一步,所述步骤1中,构建问答社区中标签网络,对源领域问答社区S1*,统计其社区中所有的新标签,按时间排序,取比例为前α=10%中的新标签中最后一个标签出现的时刻$社区所有标签的网络,作为该社区的网络结构7:时刻的社区网络结构初步形成,其结构特征能够代表该领域社区的网络结构,最后得到源领域和目标领域社区的网络结构集合[0014]再进一步,所述步骤2中,计算各个社区中网络结构的向量表征,采用graph2vec见文南犬[3]NarayananA,ChandramohanM,VenkatesanR,etal.graph2vec:LearningDistributedRepresentationsofGraphs[J].arXivpreprintarXiv:1707.05005,2017.即NarayananA,ChandramohanM,VenkatesanR.graph2vec:学习图的分布式表征[J].arXivpreprintarXiv:1707.05005,2017.的方法,将每个网络GiEQ用一个维度为d的向量来进行表征;首先,提取网络Gi的根子图结构,利用WeisfeiIer-LehmanWL核方法对网络61中每一个节点依次提取最小子图结构,集合为从?,_6=[5^,叹丨,...,叹^^1表示网络Gi中的子图的种类,然后利用类比doc2vec见文献[4]LeQ,MikolovT.Distributedrepresentationsofsentencesanddocuments[C]InternationalConferenceonMachineLearning.2014:1188-1196.即LeQ,MikolovT.句子和文档的分布式表征[C]国际机器学习会议.2014:1188-1196.的方法中的skip-gram的语言嵌入模型,将子图结构类比于单词,每个图类比一个文档,最后学习得到源领域社区和目标社区网络图结构的向量表征Vs,和vT,te{1,2,···,η}。[00Ί5]更进一步,所述步骤4中,构建基于网络结构相似性的A-TrAdaboost算法模型,操作如下:根据文献[1]中提取特征和标签标记的方法,得到源领域社区和目标领域的特征标记样沣和Dt={XT,cXT},其中为目标领域有标记数据集,为目标领域无标记数据集,CX函数表示样本X的标记函数,CXe{〇,1},选择源领域数据和目标领域有标记样本数据集作为模型的训练集=DsU巧,测试集为Ad=與;将步骤3所计算的余弦相似性γt分别作为源领域1\中样本的权重wSi,中样本的初始权重设为1,记为wT,即所有训练样本权重为,作为A-TrAdaboost方法的初始权重分别表示〇的样本大小,η表示终的样本大小:,在每次迭代过程中,通过有权SVM训练每次的基分类器ft,然后根据公式计算每次迭代后在目标领域有标记样本D;上的误差率et:[0019]其中,仏表示为当前的基分类器的权重。再根据误差率更新训练样本的权重,[0021]使得对目标领域有益的样本权重增加,反之权重降低,迭代N次后,对最后得到的N个基分类器进行加权投票得出最后的出最后的预测模型fT,[0023]本发明的有益效果表现在:利用网络图表征的方法,得到各个网络的向量表征,进而计算网络之间的相似性,作为不同问答社区之间的领域距离,并将网络结构之间的相似性作为多源迀移学习算法TrAdaboost的初始权重,在进行跨社区预测新标签流行性问题时,能够较好的避免多源迀移中的负迀移问题,提高模型的训练时间和精度。附图说明[0024]图1基于A-TrAdaboost算法的多源社区标签发展趋势预测方法流程框图;[0025]图2为A-TrAdaboost算法的基本步骤。具体实施方式[0026]下面结合说明书附图对本发明的具体实施方式作进一步详细的描述。[0027]参照图1和图2,一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法,本发明使用了StackExchange问答网站中数据进行实例分析,数据采用了部分问答社区中每个帖子创建时间,帖子ID,用户ID,帖子标签等彳目息,构建标签网络,提取标签对应的结构特征和非结构特征,进行提出的A-TrAdaboost模型的构建和训练。[0028]本发明具体分为以下四个步骤::[0029]步骤1:构建问答社区标签网络。[0030]步骤2:计算各个社区中网络结构的向量表征。[0031]步骤3:计算源领域与目标领域之间的相似性。[0032]步骤4:构建基于A-TrAdaboost算法的多源社区标签流行性预测模型。[0033]所述步骤1中,构建问答社区中标签网络,操作如下:如果同一个问题帖子下边出现多个标签,则认为这些标签具有连边,构建社区的标签网络;例如对源领域问答社ES1中,统计其社区中所有的新标签,按时间排序,取比例为前α=1〇%中的新标签中最后一个标签出现的时刻:?:社区所有标签的网络,作为该社区的网络结构巧,2:时刻的社区网络结构初步形成,其结构特征能够代表该领域社区的网络结构,最后得到源领域和目标领域社区的网络结构集合Q=fG,v.,…,G、,G1]〇[0034]所述步骤2中,计算社区中网络结构的向量表征,采用graph2vec的方法,将每个网络G1GΩ用一个维度为d的向量来进行表征;首先,提取网络G1的根子图结构,利用Weisfeiler-LehmanWL核方法对网络Gi中每一个节点依次提取最小子图结构,集合为,Vl表示网络仏中的子图的种类。然后利用类比doc2vec的方法中的skip-gram的语言嵌入模型,将子图结构类比于单词,每个图类比一个文档,最后学习得到每个源领域社区和目标领域社区的网络图结构的向量表征Vs1和VT,te{1,2,···,η}。[0035]所述步骤3中,计算源领域与目标领域之间的结构相似性,计算源领域网络结构表征向量VsjPVT之间的余弦相似性γt:[0037]所述步骤4中,构建基于A-TrAdaboost算法的多源社区标签流行性预测模型。具体操作如下,根据文献[1]中提取特征和标签标记的方法,得到源领域社区和目标领域的特征标记样本」和Dt={XT,cXT},其中为目标领域有标记数据集,为目标领域无标记数据集,CX函数表示样本X的标记函数,CXe{〇,1}。选择源领域数据和目标领域有标记样本数据集作为模型的训练集只_=仏U尽,测试集为Am=巧。将步骤3所计算的余弦相似性yt分别作为源领域巧中样本的权重中样本的初始权重设为1,记为WT,即所有训练样本权重为,作为A-TrAdaboost方法的初始权重。在每次迭代过程中,通过有权SVM训练每次的基分类器ft,然后根据公式计算每次迭代后在目标领域有标记样本1¾上的误差率:[0041]其中,仏表示为当前的基分类器的权重。再根据误差率更新训练样本的权重,[0043]使得对目标领域有益的样本权重增加,反之权重降低,迭代N次后,对最后得到的N个基分类器{fl,f2,〜,fN}进行加权投票得出最后的出最后的预测模型fT,[0045]如上所述为本发明在问答网站StackExchange中进行了基于网络结构相似性的A-TrAdaboost算法模型的构建,本发明选择多个较大社区里的标记数据作为源领域数据,对目标领域社区中进行多源迀移模型的构建,根据不同社区之间的网络结构相似性,作为源领域社区与目标领域社区之间的初始权重,通过迭代更新得出最后的预测模型,相比于传统的TrAdaboost方法,能够提高模型训练时间,在某些具有负迀移的数据上,能够具有较好的提升效果。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

权利要求:1.一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法,其特征在于,所述方法包括如下步骤:步骤1:构建问答社区中标签网络,如果同一个问题帖子下边出现多个标签,则认为这些标签具有连边,构建问答社区标签网络,得到源领域和目标领域社区的网络结构集合Ω=IGs,Cv,...,Gs,G1ΐ;步骤2:计算各社区中网络结构的向量表征,采用graph2vec的方法,将每个网络GieΩ用一个维度为d的向量来进行表征,最后学习得到每个社区网络图结构的向量表征V1;步骤3:计算源领域与目标领域之间的结构相似性,计算源领域网络结构表征向量'和和目标领域Vt之间的余弦相似性γt:步骤4:构建基于A-TrAdaboost算法的多源社区标签流行性预测模型,通过提取源领域Dst和目标领域Dt中的样本标签及特征数据,把步骤3中计算的相似性γ*作为各源领域迀移到目标领域上的初始权重,通过有权SVM的方法,不断迭代更新不同训练样本中的权重,得出最后的训练模型。2.如权利要求1所述的一种基于A-TrAdaboost迀移算法的多源社区标签发展趋势预测方法,其特征在于:在所述步骤1中,构建问答社区中标签网络,对源领域问答社区S1中,统计其社区中所有的新标签,按时间排序,取比例为前α=10%中的新标签中最后一个标签出现的时刻t社区所有标签的网络,作为该社区的网络结构%,2:时刻的社区网络结构初步形成,其结构特征能够代表该领域社区的网络结构,最后得到源领域和目标领域社区的网络结构集合Ω=卜3.如权利要求1或2所述的一种基于A-TrAdaboost迀移算法的多源社区标签发展趋势预测方法,其特征在于:所述步骤2中,计算社区中网络结构的向量表征,采用graph2vec的方法,将每个网络G1GΩ用一个维度为d的向量来进行表征,首先,提取网络G1的根子图结构,利用WeisfeiIer-Lehman核方法对网络Gi中每一个节点依次提取最小子图结构,集合为,¥1表示网络G1*的子图的种类,然后利用类比doc2vec的方法中的skip-gram的语言嵌入模型,将子图结构类比于单词,每个图类比一个文档,最后学习得到源领域社区和目标社区网络图结构的向量表征和VT,te{1,2,···,η}。4.如权利要求1或2所述的一种基于A-TrAdaboost迀移算法的多源社区标签发展趋势预测方法,其特征在于:所述步骤4中,构建基于网络结构相似性的A-Tradaboost算法模型,操作如下,获取源领域和目标领域社区的特征标记样本Ds和Dt,其中=代U代,为目标领域有标记数据集,與ί为目标领域无标记数据集,选择源领域数据和目标领域有标记样本数据集作为模型的训练集巧„.„=AU祝,测试集为=巧,cX函数表示样本X的标记函数,cXe{〇,1},将步骤3所计算的余弦相似性γt分别作为源领域巧,中样本的权重,贫中样本的初始权重设为1,记为wT,即所有训练样本权重为,.作为A-TrAdaboost方法的初始权重,在每次迭代过程中,通过有权SVM训练每次的基分类器ft,然后根据公式计算每次迭代后在目标领域有标记样本Dt1上的误差率£1;:其中,仏表示为当前的基分类器的权重,再根据误差率更新训练样本的权重,使得对目标领域有益的样本权重增加,反之权重降低,迭代N次后,对最后得到的N个基分类器进行加权投票得出最后的出最后的预测模型fT,

百度查询: 浙江工业大学 一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。