一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法

导航：龙图腾网> 最新专利技术> 一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江工业大学

摘要：一种基于A‑TrAdaboost算法的多源社区标签发展趋势预测方法，包括以下步骤：1构建问答社区中的标签网络；2计算源领域社区和目标领域社区结构的向量表征3计算源领域与目标领域之间的结构相似性；4构建基于A‑TrAdaboost算法的多源社区标签流行性预测模型。本发明利用网络图表征的方法，得到各个网络的向量表征，进而计算网络之间的相似性，作为不同问答社区之间的领域距离，并将网络结构之间的相似性作为多源迁移学习算法TrAdaboost的初始权重，在进行跨社区预测新标签流行性问题时，能够较好的避免多源迁移中的负迁移问题，提高模型的训练时间和精度。

主权项：1.一种基于A‑TrAdaboost算法的多源社区标签发展趋势预测方法，其特征在于，所述方法包括如下步骤：步骤1：构建问答社区中标签网络，如果同一个问题帖子下边出现多个标签，则认为这些标签具有连边，构建问答社区标签网络，得到源领域和目标领域社区的网络结构集合步骤2：计算各社区中网络结构的向量表征，采用graph2vec的方法，将每个网络Gi∈Ω用一个维度为d的向量来进行表征,最后学习得到每个社区网络图结构的向量表征Vi；步骤3：计算源领域与目标领域之间的结构相似性，计算源领域网络结构表征向量和和目标领域VT之间的余弦相似性γt：步骤4：构建基于A‑TrAdaboost算法的多源社区标签流行性预测模型，通过提取源领域DSt和目标领域DT中的样本标签及特征数据，把步骤3中计算的相似性γt作为各源领域迁移到目标领域上的初始权重，通过有权SVM的方法，不断迭代更新不同训练样本中的权重，得出最后的训练模型。

全文数据：一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法技术领域[0001]本发明涉及数据挖掘、图结构分析技术，特别是涉及一种基于A-TrAdabo〇st算法的多源社区标签发展趋势预测方法。背景技术[0002]当前随着移动互联网和智能设备的广泛普及，改变了人们的生活方式，人们更倾向于在网络上发表自己看法和搜集自己需要的信息，因此在线问答社区变得越来越活跃和流行。由于问答社区中的帖子数量巨大，用户在问答社区中获取的信息主要根据问题答案的标签来进行筛选和推荐，随着时间的推移，标签的数量也越来与巨大，问答社区中的标签研究日益成为关注的热点。[0003]傅晨波等人（见文献[1]FuC,ZhengY,LiS，etal.PredictingthepopularityoftagsinStackExchangeQAcommunities[C]ComplexSystemsandNetworksIWCSN，2017InternationalWorkshopon.IEEE,2017:90-95.即傅晨波，郑永立，李诗迪.预测StackExchange问答社区标签流行性[C]复杂的系统和网络（IWCSN，2017国际研讨会.IEEE，2017:90-95。）已经研究了问答社区中新标签未来的流行性发展趋势预测，但是其预测模型仅根据单个社区中标签数据来进行模型构建。在这种情况下，当在一些数据量较小的社区或者新出现的社区中使用模型时，由于标记数据样本较少，会使得训练后的模型并不理想。迀移学习从一个相关并同时拥有丰富训练样本的领域中训练模型，并分享到目标领域。利用迀移学习可以解决目标领域训练数据较少的缺陷。因此我们利用迀移学习的思路在其他较大社区中进行模型训练，然后再迀移到目标社区，以提高预测模型的精度。[0004]单源迀移时常常会遇到负迀移的状况，使得迀移过来的效果并不好。为了解决这一问题，其中一种方法是设置不同的样本权重，通过设置不同样本之间的权重，选择出对目标任务有帮助的样本，提高迀移学习的效果。TrAdaboost见文献[2]DaiW,YangQ,XueGR,etal.Boostingfortransferlearning[C]InternationalConferenceonMachineLearning.ACM,2007:193-200.即戴文渊，杨强，薛贵荣，俞勇.迀移学习集成[C]国际机器学习会议.ACM，2007:193-200.方法利用迭代更新权重的方法，通过对每次训练的模型在目标领域上的分类效果，计算误差，反馈更新样本的权重，得出最后的分类模型。另外一种方法是多源迀移的模型框架。已有的多源迀移学习方法已经很多，目前比较常用的迀移学习方法是根据不同领域之间的特征分布的距离作为其衡量领域之间的相似性，进而对不同领域构建的基分类器进行加权。在使用迀移学习的方法来预测问答社区标签流行性发展趋势的预测问题中，根据特征分布之间的差异性来衡量不同领域之间的相似性大小，不能取得较好的迀移提升效果。发明内容[0005]为了解决跨社区标签流行性的预测问题，为了较好的衡量涉及网络结构的不同领域之间的差异，和改善TrAdaboost在在具有负迀移数据源上的迀移效果的鲁棒性，本发明提出一种基于网络结构相似性的A-TrAdaboost算法来预测在线问答社区中新标签在未来的流行性发展趋势。[0006]本发明解决其技术问题所采用的技术方案如下：[0007]一种基于A-TrAdabOOSt算法的多源社区标签发展趋势预测方法，包括如下步骤：[0008]步骤1:构建问答社区中标签网络，如果同一个问题帖子下边出现多个标签，则认为这些标签具有连边，构建问答社区标签网络，得到源领域和目标领域社区的网络结构集合Ω={Gs，7、，…，7V,，ϊ,}[0009]步骤2:计算各社区中网络结构的向量表征，采用graph2vec的方法，将每个网络G1GΩ用一个维度为d的向量来进行表征，最后学习得到源领域网络结构表征向量V5i和目标领域结构向量表征Vt;[0010]步骤3:计算源领域与目标领域之间的结构相似性，计算源领域网络结构表征向量和目标领域Vt之间的余弦相似性γt:[0012]步骤4:构建基于A-TrAdaboost算法的多源社区标签流行性预测模型。通过提取源领域2¾和目标领域Dt中的样本标签及特征数据，把步骤3中计算的相似性γ*作为各源领域上样本的初始权重，通过有权SVM的方法，训练出预测模型，然后不断迭代更新不同训练样本中的权重，得出最后的训练模型。[0013]进一步，所述步骤1中，构建问答社区中标签网络，对源领域问答社区S1*，统计其社区中所有的新标签，按时间排序，取比例为前α=10%中的新标签中最后一个标签出现的时刻$社区所有标签的网络，作为该社区的网络结构7：时刻的社区网络结构初步形成，其结构特征能够代表该领域社区的网络结构，最后得到源领域和目标领域社区的网络结构集合[0014]再进一步，所述步骤2中，计算各个社区中网络结构的向量表征，采用graph2vec见文南犬[3]NarayananA,ChandramohanM,VenkatesanR，etal.graph2vec:LearningDistributedRepresentationsofGraphs[J].arXivpreprintarXiv:1707.05005,2017.即NarayananA，ChandramohanM，VenkatesanR.graph2vec:学习图的分布式表征[J].arXivpreprintarXiv:1707.05005,2017.的方法，将每个网络GiEQ用一个维度为d的向量来进行表征;首先，提取网络Gi的根子图结构，利用WeisfeiIer-LehmanWL核方法对网络61中每一个节点依次提取最小子图结构，集合为从?,_6=[5^，叹丨,...,叹^^1表示网络Gi中的子图的种类，然后利用类比doc2vec见文献[4]LeQ，MikolovT.Distributedrepresentationsofsentencesanddocuments[C]InternationalConferenceonMachineLearning.2014:1188-1196.即LeQ，MikolovT.句子和文档的分布式表征[C]国际机器学习会议.2014:1188-1196.的方法中的skip-gram的语言嵌入模型，将子图结构类比于单词，每个图类比一个文档，最后学习得到源领域社区和目标社区网络图结构的向量表征Vs,和vT，te{1，2，···，η}。[00Ί5]更进一步，所述步骤4中，构建基于网络结构相似性的A-TrAdaboost算法模型，操作如下:根据文献[1]中提取特征和标签标记的方法，得到源领域社区和目标领域的特征标记样沣和Dt={XT,cXT}，其中为目标领域有标记数据集，为目标领域无标记数据集，CX函数表示样本X的标记函数，CXe{〇,1}，选择源领域数据和目标领域有标记样本数据集作为模型的训练集=DsU巧，测试集为Ad=與;将步骤3所计算的余弦相似性γt分别作为源领域1\中样本的权重wSi，中样本的初始权重设为1，记为wT，即所有训练样本权重为，作为A-TrAdaboost方法的初始权重分别表示〇的样本大小，η表示终的样本大小：，在每次迭代过程中，通过有权SVM训练每次的基分类器ft，然后根据公式计算每次迭代后在目标领域有标记样本D;上的误差率et:[0019]其中，仏表示为当前的基分类器的权重。再根据误差率更新训练样本的权重，[0021]使得对目标领域有益的样本权重增加，反之权重降低，迭代N次后，对最后得到的N个基分类器进行加权投票得出最后的出最后的预测模型fT，[0023]本发明的有益效果表现在:利用网络图表征的方法，得到各个网络的向量表征，进而计算网络之间的相似性，作为不同问答社区之间的领域距离，并将网络结构之间的相似性作为多源迀移学习算法TrAdaboost的初始权重，在进行跨社区预测新标签流行性问题时，能够较好的避免多源迀移中的负迀移问题，提高模型的训练时间和精度。附图说明[0024]图1基于A-TrAdaboost算法的多源社区标签发展趋势预测方法流程框图；[0025]图2为A-TrAdaboost算法的基本步骤。具体实施方式[0026]下面结合说明书附图对本发明的具体实施方式作进一步详细的描述。[0027]参照图1和图2,一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法，本发明使用了StackExchange问答网站中数据进行实例分析，数据采用了部分问答社区中每个帖子创建时间，帖子ID，用户ID，帖子标签等彳目息，构建标签网络，提取标签对应的结构特征和非结构特征，进行提出的A-TrAdaboost模型的构建和训练。[0028]本发明具体分为以下四个步骤：：[0029]步骤1:构建问答社区标签网络。[0030]步骤2:计算各个社区中网络结构的向量表征。[0031]步骤3:计算源领域与目标领域之间的相似性。[0032]步骤4:构建基于A-TrAdaboost算法的多源社区标签流行性预测模型。[0033]所述步骤1中，构建问答社区中标签网络，操作如下:如果同一个问题帖子下边出现多个标签，则认为这些标签具有连边，构建社区的标签网络；例如对源领域问答社ES1中，统计其社区中所有的新标签，按时间排序，取比例为前α=1〇%中的新标签中最后一个标签出现的时刻：?：社区所有标签的网络，作为该社区的网络结构巧,2：时刻的社区网络结构初步形成，其结构特征能够代表该领域社区的网络结构，最后得到源领域和目标领域社区的网络结构集合Q=fG,v.，…，G、,G1]〇[0034]所述步骤2中，计算社区中网络结构的向量表征，采用graph2vec的方法，将每个网络G1GΩ用一个维度为d的向量来进行表征；首先，提取网络G1的根子图结构，利用Weisfeiler-LehmanWL核方法对网络Gi中每一个节点依次提取最小子图结构，集合为，Vl表示网络仏中的子图的种类。然后利用类比doc2vec的方法中的skip-gram的语言嵌入模型，将子图结构类比于单词，每个图类比一个文档，最后学习得到每个源领域社区和目标领域社区的网络图结构的向量表征Vs1和VT，te{1，2，···，η}。[0035]所述步骤3中，计算源领域与目标领域之间的结构相似性，计算源领域网络结构表征向量VsjPVT之间的余弦相似性γt:[0037]所述步骤4中，构建基于A-TrAdaboost算法的多源社区标签流行性预测模型。具体操作如下，根据文献[1]中提取特征和标签标记的方法，得到源领域社区和目标领域的特征标记样本」和Dt={XT,cXT}，其中为目标领域有标记数据集，为目标领域无标记数据集，CX函数表示样本X的标记函数，CXe{〇,1}。选择源领域数据和目标领域有标记样本数据集作为模型的训练集只_=仏U尽，测试集为Am=巧。将步骤3所计算的余弦相似性yt分别作为源领域巧中样本的权重中样本的初始权重设为1，记为WT，即所有训练样本权重为，作为A-TrAdaboost方法的初始权重。在每次迭代过程中，通过有权SVM训练每次的基分类器ft，然后根据公式计算每次迭代后在目标领域有标记样本1¾上的误差率：[0041]其中，仏表示为当前的基分类器的权重。再根据误差率更新训练样本的权重，[0043]使得对目标领域有益的样本权重增加，反之权重降低，迭代N次后，对最后得到的N个基分类器{fl，f2，〜，fN}进行加权投票得出最后的出最后的预测模型fT，[0045]如上所述为本发明在问答网站StackExchange中进行了基于网络结构相似性的A-TrAdaboost算法模型的构建，本发明选择多个较大社区里的标记数据作为源领域数据，对目标领域社区中进行多源迀移模型的构建，根据不同社区之间的网络结构相似性，作为源领域社区与目标领域社区之间的初始权重，通过迭代更新得出最后的预测模型，相比于传统的TrAdaboost方法，能够提高模型训练时间，在某些具有负迀移的数据上，能够具有较好的提升效果。本专业技术人员理解，在发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

权利要求：1.一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法，其特征在于，所述方法包括如下步骤：步骤1:构建问答社区中标签网络，如果同一个问题帖子下边出现多个标签，则认为这些标签具有连边，构建问答社区标签网络，得到源领域和目标领域社区的网络结构集合Ω=IGs,Cv,...,Gs,G1ΐ；步骤2:计算各社区中网络结构的向量表征，采用graph2vec的方法，将每个网络GieΩ用一个维度为d的向量来进行表征，最后学习得到每个社区网络图结构的向量表征V1;步骤3:计算源领域与目标领域之间的结构相似性，计算源领域网络结构表征向量'和和目标领域Vt之间的余弦相似性γt:步骤4:构建基于A-TrAdaboost算法的多源社区标签流行性预测模型，通过提取源领域Dst和目标领域Dt中的样本标签及特征数据，把步骤3中计算的相似性γ*作为各源领域迀移到目标领域上的初始权重，通过有权SVM的方法，不断迭代更新不同训练样本中的权重，得出最后的训练模型。2.如权利要求1所述的一种基于A-TrAdaboost迀移算法的多源社区标签发展趋势预测方法，其特征在于:在所述步骤1中，构建问答社区中标签网络，对源领域问答社区S1中，统计其社区中所有的新标签，按时间排序，取比例为前α=10%中的新标签中最后一个标签出现的时刻t社区所有标签的网络，作为该社区的网络结构%，2：时刻的社区网络结构初步形成，其结构特征能够代表该领域社区的网络结构，最后得到源领域和目标领域社区的网络结构集合Ω=卜3.如权利要求1或2所述的一种基于A-TrAdaboost迀移算法的多源社区标签发展趋势预测方法，其特征在于:所述步骤2中，计算社区中网络结构的向量表征，采用graph2vec的方法，将每个网络G1GΩ用一个维度为d的向量来进行表征，首先，提取网络G1的根子图结构，利用WeisfeiIer-Lehman核方法对网络Gi中每一个节点依次提取最小子图结构，集合为，¥1表示网络G1*的子图的种类，然后利用类比doc2vec的方法中的skip-gram的语言嵌入模型，将子图结构类比于单词，每个图类比一个文档，最后学习得到源领域社区和目标社区网络图结构的向量表征和VT，te{1，2，···，η}。4.如权利要求1或2所述的一种基于A-TrAdaboost迀移算法的多源社区标签发展趋势预测方法，其特征在于:所述步骤4中，构建基于网络结构相似性的A-Tradaboost算法模型，操作如下，获取源领域和目标领域社区的特征标记样本Ds和Dt，其中=代U代，为目标领域有标记数据集，與ί为目标领域无标记数据集，选择源领域数据和目标领域有标记样本数据集作为模型的训练集巧„.„=AU祝，测试集为=巧，cX函数表示样本X的标记函数，cXe{〇,1}，将步骤3所计算的余弦相似性γt分别作为源领域巧,中样本的权重，贫中样本的初始权重设为1，记为wT，即所有训练样本权重为，.作为A-TrAdaboost方法的初始权重，在每次迭代过程中，通过有权SVM训练每次的基分类器ft，然后根据公式计算每次迭代后在目标领域有标记样本Dt1上的误差率£1；:其中，仏表示为当前的基分类器的权重，再根据误差率更新训练样本的权重，使得对目标领域有益的样本权重增加，反之权重降低，迭代N次后，对最后得到的N个基分类器进行加权投票得出最后的出最后的预测模型fT，

百度查询：浙江工业大学一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种刹车盘保护盖

下一篇：具有处于低速档的分动箱的混合动力的动力总成系统和操作

相关技术

一种刹车盘保护盖

具有处于低速档的分动箱的混合动力的动力总成系统和操作

一种船舶激振装置及船体振动试验分析方法

一种液压潜水泵

一种外卖无接触配送方法、装置、设备及存储介质

一种具有表面清理功能的不锈钢带拉矫装置

一种浅层地下水污染用治理装置

一种水力发电装置及清洁装置

一种坐浴盆

一种市政道路铺砖装置

信息处理系统以及信息处理方法

一种高矫顽力的R-T-B永磁体及其制备方法和应用

标签相关技术

耐高温RFID标签_浙江天之元物流科技有限公司_202323429260.4

电子标签装置_李秉烜_202310076999.7

标签打印机_山东新北洋信息技术股份有限公司_202310239290.4

贴标签限位治具_上海慧银信息科技有限公司_202323539798.0

纸卷的辨识方法和装置、标签纸纸卷以及标签打印机_厦门顶尖电子有限公司_202210323213.2

一种塑料标签分选装置_青岛景耀包装有限公司_202323490535.5

用于运行贴标签系统的方法_艾斯普拉工厂有限公司_202380019088.9

一种标签纸导向辊_上海鸿涛纸制品有限公司_202420321390.1

一种标签薄膜除尘装置_上海越鸿印刷科技有限公司_202323391231.3

一种ETC电子标签_北京雅光谷信息系统有限公司_202321360592.9

社区相关技术

基于多源数据融合的智慧社区管理系统_上海临港益邦智能技术股份有限公司_202410762826.5

一种智慧社区信息分发方法和系统_湖北永达卓越网络科技有限公司_202411099284.4

一种智慧社区用垃圾桶_天津市理邻科技发展有限公司_202420057085.6

一种基于网格化管理的智慧社区综合服务系统_四川民望科技集团有限公司_202411119747.9

一种用于未来社区场景的自动选址方法_苏州众通规划设计有限公司_202410720615.5

一种社区垃圾站的厨余垃圾干化装置_江苏聚业环保科技工程有限公司_202323650316.9

一种在线社交网络中局部社区检测方法及系统_江西求是高等研究院_202410817479.1

基于社区微网电能交易的储能设备控制方法及装置_国网上海市电力公司_202110938173.8

一种基于社区智慧屏的信息播放方法及装置_鑫达物管(北京)科技有限公司_202410669085.6

一种用于社区建设的桩基智能排布系统及排布方法_江苏兴华基础建设工程有限公司_202311004780.2

发展相关技术

一种基于SDGs的城市可持续发展多维评估系统_中国标准化研究院_202410736949.1

一种机场群体性事件发展阶段的预测方法、装置、设备及介质_中国民用航空总局第二研究所_202411053240.8

一种古建筑壁画裂缝发展特性测试装置、裂缝试样模拟方法以及实验方法_北京交通大学_202410886972.9

一种混凝土裂缝宽度发展测试装置_广信检测认证集团有限公司_202410938910.8

一种城市可持续发展指数模型构建方法_中国标准化研究院_202410744735.9

一种水-能源-粮食纽带协调发展度评价方法_长沙理工大学_202410737305.4

一种水-能源-粮食纽带发展轨迹动态模拟方法_长沙理工大学_202410737303.5

一种可穿戴式脑水肿检测设备及脑水肿发展水平评估系统_天津工业大学_202410620757.4

一种县域乡村产业发展模式的识别方法_中国科学院地理科学与资源研究所_202410559928.7

一种航空运输业高质量发展测度与状态评价方法及系统_中国民航科学技术研究院_202410653052.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务