买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京信息科技大学
摘要:本发明提供一种领域评审专家行为轨迹的知识图谱构建方法,采用自顶向下与自底向上相结合的方法完成构建。通过爬虫进行数据采集并预处理;定义领域本体,建立模式结构;利用自然语言处理技术进行知识抽取;针对同名专家的多类属性特征,提出基于地点一致性与时间重合性相结合的行为轨迹相似度匹配算法,结合编辑距离和余弦相似度确定消歧专家,实现知识融合;最后将知识存储在图数据库neo4j中,查找专家间建立的直接关系路径和间接关系路径,完成亲密度计算。本发明的方法同名专家消歧的F1值为93%,相比现有技术提高16%,解决了知识图谱中实体歧义问题。该知识图谱可有效表示专家行为轨迹及社会关系等,计算专家亲密度,为评审专家的遴选提供知识基础。
主权项:1.一种领域评审专家行为轨迹的知识图谱构建方法,其特征在于:包括以下步骤,S1领域专家信息的采集与预处理;S2构建领域本体及确定知识图谱模式结构;S3实体、属性和关系的知识抽取;S4同名专家消歧;S5用neo4j图数据库实现存储;其中,S4同名专家消歧中,分别进行S41基本信息特征相似度计算,S42专业领域特征相似度计算和S43行为轨迹特征相似度计算,并对计算结果进行求和,获得最终相似度;S41基本信息特征相似度计算,采用编辑距离对基本信息特征进行相似度计算,包括S411,将基本信息特征中的属性特征表示为一个四元组形式B={sex,birth,mail,degree},其中,四种属性特征为性别、出生年月、邮箱和学历;S412以相对值指标代表每种属性特征的相似度 公式中,LevenshteinDistT1,T2表示两个字符串T1和T2的编辑距离,max{LenT1,LenT2}表示T1和T2中字符串长度的最大值;S413采用层次分析法求得四种属性特征权重值,对每种相似度计算结果线性加权,得到两位同名专家在该类相似度特征的相似度Bas_SimB1,B2=W_b·Sim_bW_b=wb1,wb2,wb3,wb4 其中W_b表示相似度权重,wbi1≤i≤4分别表示四种属性特征相似度的权重分量;Sim_b表示四种属性特征编辑距离相似度的四维行向量;S42专业领域特征近似度计算,将S31抽取的专家研究方向构建成一个大型语料库,采用Word2vec的CBOW模型训练并获得n维句向量,然后采用余弦相似度的方法进行计算,计算公式为, 公式中,Pro_SimP1,P2表示两位同名专家在专业领域特征类中的相似度,P1i和P2i分别表示特征向量P1和P2的各分量;S43行为轨迹特征相似度计算,其中,行为特征中的属性特征以三元组的集合形式表示,其算法包括:行为轨迹相似度匹配算法,其输入两位专家的行为轨迹属性特征集合Behavior1和Behavior2,输出行为轨迹相似度Beh_Sim,其过程为,S431相同行为地点识别:采用字符串匹配的方法遍历Behavior1和Behavior2,得到包含相同行为地点的行为轨迹特征三元组列表SaBehavior1和SaBehavior2;S432重合时间计算:依据列表SaBehavior1和SaBehavior2中每个三元组的start_timei和end_timei获得以年为单位的每段行为重合时长timei;S433相似度计算:统计两位同名专家各自的所有行为轨迹总时长Time1和Time2,计算每段行为重合时长求和结果与总时长Time1和Time2中较短时间的比值,得到行为轨迹相似度Beh_Sim,公式如下: S44同名专家实体融合以上基本信息特征相似度、专业领域特征近似度和行为轨迹特征相似度的相似度值域为[0,1],对其进行相加求和获得同名专家相似度,计算公式为Sim=Bas_Sim+Pro_Sim+Beh_Sim,完成专家行为轨迹知识图谱的构建;还包括S6根据领域评审专家行为轨迹的知识图谱构建方法获得的行为轨迹知识图谱进行亲密度计算的步骤,抽取以两名目标专家实体为端点的所有关系路径,分为直接关系路径与间接关系路径,通过对两种关系路径的亲密度求和获得最终的专家亲密度;包括S61直接关系路径亲密度计算,和S62间接关系路径亲密度计算;其中S61直接关系路径亲密度计算中,其密度计算关系为 其中,w表示关系稳定期权重,time为关系路径的行为重合时长,yj为直接关系类型j的关系稳定期;Q为关系路径亲密度,qj为直接关系j的关系亲密值,t为置信度;S62间接关系路径亲密度计算中,对间接关系路径做分阶处理,采用直接关系亲密度的计算方法求得每阶关系亲密度,进行乘积运算,结果作为该条间接关系路径的亲密度值,计算公式为,QK=Q1j·Q2j·Q3j·...·QkjQk表示一条k阶间接关系路径亲密度,k表示关系阶数,Qtj表示该条路径第t阶j类直接关系亲密度;S61直接关系路径亲密度计算中,对于专家间存在的多条直接关系路径,从路径长度和关系类型两个角度出发,将长度相等且关系类型相同的关系路径亲密度求和,并控制其求和亲密度不超过关系亲密度qj,对长度相等的关系路径,依据关系类型做亲密度求和收束运算,qj为收束临界值,进而求得所有直接关系路径亲密度,收束公式为, 所有直接关系路径亲密度公式为 其中,e为关系路径长度,j为直接关系类型,R为e长度的j类直接关系路径数量,Qrej表示第r条长度为e的j类直接关系路径亲密度,Sej表示所有关系路径长度为e的j类直接关系亲密度收束结果;Qd为所有直接关系路径亲密度结果;S62间接关系路径亲密度计算中,从关系阶数和关系类型两个角度出发,将阶数相等且关系类型相同的关系路径亲密度做求和收束处理,收束临界值以关系路径中存在的一阶关系类型的最高亲密值qj为准,收束运算公式为 其中,Skh表示k阶h类间接关系路径的亲密度收束结果,Qrkh表示第r条k阶h类间接关系路径亲密度,R为k阶h类间接关系路径数量,qj为收束临界值;对所有阶关系路径的亲密度收束结果做衰减计算后求和,得到所有间接关系路径亲密度,计算公式如下: 其中,Qid为所有间接关系路径亲密度,Dk为衰减比重,K为专家间关系的最高阶数,Sk为专家间k阶间接关系的所有间接关系类型亲密度,C为k阶所有间接关系类型数量,c为间接关系类型。
全文数据:
权利要求:
百度查询: 北京信息科技大学 一种领域评审专家行为轨迹的知识图谱构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。