买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江理工大学
摘要:本发明公开了一种论文作者姓名消歧的方法、设备及储存介质,基于姓名和机构对节点进行判断,将姓名和机构相同且距离小于设定的阈值的节点构建边,再通过图自动编码器将存在边的作者信息记录合并,以得到相关的专家数据组,再将专家数据组关联邮箱,同名不同人的作者采用的邮箱地址必然不同,实现同名消歧,再通过作者姓名及机构的相同或包含关系且距离小于设定的阈值来判断相同作者并合并形成专家数据组,将该作者使用该邮箱的论文数据合并成组,并且能够得到合作的作者的信息,再将所有邮箱关联的专家全部记录后再合并机构和作者姓名及研究学科有重合的专家数据组,实现由邮箱关联的专家数据集,并实现作者的消歧。
主权项:1.一种论文作者姓名消歧方法,其特征在于,包括如下步骤:S1:创建作者信息数据集和邮箱统计临时表;S2:对作者信息集中的每项作者属性特征进行权重计算;S3:基于词向量生成作者属性特征的嵌入表示,通过S2得到的特征权重对嵌入的特征向量进行加权融合,得到作者信息集的整体嵌入;S4:提取邮箱统计临时表中的一个邮箱地址;S5:根据提取的邮箱地址,在作者信息数据集中进行筛选,获取若干条被选中的作者信息记录,构建图神经网络;每条作者信息记录作为其中的一个节点;S6:在图神经网络中,将作者姓名和机构均相同且距离小于阈值的节点构建边;S7:通过图自动编码器学习作者信息的节点嵌入,将存在边的作者信息合并为一组专家数据,并添加到临时信息表中分配唯一ID,其余作者信息作为独立专家数据添加到临时信息表,分别分配唯一ID;S8:各组专家数据通过其包含作者信息关联对应的论文ID,将关联论文ID后的各组专家数据输出到专家资源临时表;S9:为所述专家资源临时表中的每一组专家数据进行邮箱聚合统计,邮箱聚合统计方法包括:为该组专家数据中包含的各个邮箱统计出现频次;取出现频次最多的邮箱作为该组专家数据对应的邮箱,并填入该组专家数据的邮箱题录;若出现频次最多的邮箱有多个,则拆分收件人,Email服务器地址,进行LCS比较,取得完全匹配的邮箱作为该组专家数据对应的邮箱,填入该组专家数据的邮箱题录,并对其他题录进行去重;将所述专家资源临时表中数据写入专家资源表,删除专家资源临时表;S10:更新专家资源表,其中,所述专家资源表包括关键词、学科、期刊和源邮箱题录,更新的方法包括:根据所述专家资源表中每条新增数据的关联论文ID读取文献数据库中对应的关键词、学科和期刊字段,通过去重、分隔后写入对应题录下;将S4中提取的邮箱地址写入新增数据的源邮箱题录下,所述源邮箱用于通过该邮箱关联对应的专家数据组的邮箱;S11:提取邮箱统计临时表中下一个邮箱地址,回到S5步骤,直至遍历整个邮箱统计临时表;S12:对专家资源表进行二次合并,输出专家资源表。
全文数据:
权利要求:
百度查询: 浙江理工大学 一种论文作者姓名消歧的方法、设备及储存介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。