买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江大学
摘要:本发明公开了一种推荐架构下的基于对比学习调优的论文作者消歧方法。本发明将论文作者消歧任务抽象为单塔推荐架构下的推荐排序问题。提出基于WideDeep推荐架构的排序算法解决基于表示的深度学习模型的语义漂移问题,实现基于多字段多实例注意力机制的深度模型与基于特征工程的线性模型相结合,使模型同时具备较强的泛化能力与记忆能力。此外,注意到真实匹配对之间应存在一定潜在模式的数据特点,针对性提出一种对比学习调优算法,引入对比学习损失,构建对比学习的正负样本,促使模型学习区分真实匹配对的高层次特征。
主权项:1.一种推荐架构下的基于对比学习调优的论文作者消歧方法,其特征在于,包括以下步骤:步骤1:获取已有的专家档案库G=E,P,EP,F,其中E是专家集合,ei表示第i个专家,P是已消歧论文集合,EP是专家与已消歧论文的著作权从属关系集合,定义为{epi,j∈EP|专家ei的j篇论文},F是属性字段集合;步骤2:对于待消歧论文作者对<p,a∈PA,其中PA是待消歧论文作者对集合,p,a分别是论文和作者姓名,首先根据作者姓名a在专家档案库G中找到相关的候选专家实体集合CN,最终的候选集合C=CN∪NIL,其中CN为专家档案库中匹配到的专家实体集合,NIL为不可链接指称项,代指不存在于已有专家档案库中的专家实体;将真实匹配专家记为c*,则c*∈C;步骤3:对于每个候选专家c∈C,将其发表的论文信息与待消歧论文作者对信息分别通过Wide模型和Deep模型得到浅层特征与深层特征的相似度向量表示,并拼接获得最终的相似度向量表示Simc;所述的步骤3具体为:步骤3-1:对于Wide模型,首先利用其内的浅层特征构建模块构建简单的线性特征Xp,a,c=[X1<p,a,c,...,Xn<p,a,c],其中,n为Wide模型使用的浅层特征数;然后通过两层线性层MLP生成浅层相似度向量表示χp,a,c:χp,a,c=MLPXp,a,c步骤3-2:Deep模型基于不同属性字段与不同论文对消歧结果的影响,分别建模全局相似度编码模块与局部相似度编码模块,分别获得全局相似度向量表示和局部相似度向量表示,并融合获得深层相似度向量表示所述的步骤3-2具体包括如下步骤:步骤3-2-1:全局相似度编码模块利用候选专家c的所有论文,根据属性字段f∈F分组进行相似度计算,并使用注意力机制体现不同字段对相似度向量表示的影响,计算全局相似度向量表示φ<p,a,c;步骤3-2-2:局部相似度编码模块基于专家发表的论文有多个主题的假设,认为待消歧论文只与部分候选专家论文强相关,而剩余论文弱相关甚至不相关,因此单独对待消歧论文与候选专家每一篇论文进行相似度编码;最终同样使用注意力机制体现不同论文的影响,计算局部相似度向量表示ψ<p,a,c;步骤3-2-3:获得全局相似度向量表示与局部相似度向量表示后,拼接并通过3层线性层获得深层相似度向量表示其中表示拼接操作: 步骤3-3:获得浅层相似度向量表示χp,a,c与深层相似度向量表示后,拼接获得相似度向量表示Simc: 步骤4:应用打分模块对每一个候选实体c与待消歧论文作者对之间的相似度进行打分,获得分数Sc:Sc=FCSimc步骤5:分数Sc最高的候选实体c被认为是匹配实体;所述的方法在实际应用前还包括训练阶段,训练阶段通过训练集进行训练,训练完成后再应用于论文作者消歧;其中,在训练阶段,计算损失函数包括:排序损失与对比学习损失;计算对比学习损失:对每个batch构建对比学习使用的正负样本;以batch中某一query的真实匹配对的相似度向量为锚点,与另一query的构成正例对,而与同一query内所有的非真实匹配对的相似度向量构成负例对;使用L2距离公式计算对比学习损失 计算排序损失: 计算最终损失 其中α是排序损失权重,||Θ||2是模型的L2正则化惩罚项,λ是对应的权重系数。
全文数据:
权利要求:
百度查询: 浙江大学 一种推荐架构下的基于对比学习调优的论文作者消歧方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。