首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于关系图卷积神经网络的中文作者姓名消歧方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京语言大学

摘要:本发明涉及姓名消歧技术领域,特别是指一种基于关系图卷积神经网络的中文作者姓名消歧方法及装置,方法包括:根据预设节点特征定义和节点关系定义,使用样本数据集构建样本作者图结构,输入初始关系图卷积神经网络模型,得到预测作者嵌入表示,根据聚类算法,得到预测作者聚类簇;根据预测作者聚类簇和作者真实标签,得到训练后的关系图卷积神经网络模型;获取待消歧数据,使用待消歧数据构建待消歧作者图结构;将待消歧作者图结构输入到训练后的关系图卷积神经网络模型,生成作者嵌入表示;将作者嵌入表示作为聚类的输入,确定作者聚类簇;根据作者聚类簇,确定作者识别结果。采用本发明,可以进行通用、快捷且准确的中文作者姓名消歧操作。

主权项:1.一种基于关系图卷积神经网络的中文作者姓名消歧方法,其特征在于,所述方法包括:S1、获取待处理的样本数据集;S2、根据预设的节点特征定义和节点关系定义,使用所述样本数据集构建样本作者图结构;S3、将样本作者图结构输入初始关系图卷积神经网络模型,得到预测作者嵌入表示;S4、将所述预测作者嵌入表示输入聚类算法,得到预测作者聚类簇;S5、根据预测作者聚类簇和样本数据集中的作者真实标签,对初始关系图卷积神经网络模型进行训练,得到训练后的关系图卷积神经网络模型;S6、获取待消歧数据,根据预设的节点特征定义和节点关系定义,使用所述待消歧数据构建待消歧作者图结构;S7、将待消歧作者图结构输入到训练后的关系图卷积神经网络模型,生成作者嵌入表示;S8、将所述作者嵌入表示作为聚类的输入,确定作者聚类簇;S9、根据所述作者聚类簇,确定作者识别结果;其中,所述S2的根据预设的节点特征定义和节点关系定义,使用所述样本数据集构建样本作者图结构,包括:S21、根据预设的节点特征定义以及所述样本数据集,构建样本作者图的节点特征;S22、根据预设的节点关系定义以及所述样本数据集,构建样本作者图的节点关系;其中,所述预设的节点特征定义包括:论文名称、作者姓名、论文关键词、摘要以及第一机构;所述S21的根据预设的节点特征定义以及所述样本数据集,构建样本作者图的节点特征,包括:S211、根据预设的节点特征定义,在所述样本数据集中筛选出论文名称、作者姓名、论文关键词、摘要以及第一机构五个节点特征对应的样本数据;S212、对于所述样本数据集中的论文名称、摘要以及第一机构的样本数据,使用jieba工具进行分词,得到样本分词结果;S213、使用FastText库中的FastText函数建立模型,并使用.wv.index_to_key函数获取筛选出的作者姓名、论文关键词以及样本分词结果的每个词的词向量,所述每个词的词向量的维度为100;S214、对于五个节点特征中的每个节点特征对应的所有词向量,取算术平均值作为对应的节点特征的特征向量;S215、将五个节点特征的特征向量进行拼接,得到维度为500的样本作者图的节点特征;其中,所述预设的节点关系定义包括:作者高文献耦合关系、作者生僻字关系以及作者论文来源耦合关系;所述S22的根据预设的节点关系定义以及所述样本数据集,构建样本作者图的节点关系,包括:S221、在所述样本数据集中筛选出每篇论文的作者姓名列表,如果存在两篇论文的第一作者姓名的字符串相同,并且所述两篇论文的作者姓名列表的交集长度大于或等于二,则为所述两篇论文的第一作者姓名对应的节点添加作者高文献耦合关系;其中,所述第一作者姓名是位于作者姓名列表中第一次序的作者姓名,所述两篇论文的作者姓名列表的交集长度指的是两篇论文的作者姓名列表中相同的作者姓名的数量;S222、根据作者姓名列表中相同的第一作者姓名,将所述作者姓名列表分为多组,如果存在某组作者姓名列表中的第一作者姓名中存在生僻字,则在所述组作者姓名列表的第一作者姓名对应的节点之间添加作者生僻字关系;S223、在所述样本数据集中筛选出每篇论文的来源,如果存在某两篇论文的来源相同,则为所述两篇论文的第一作者姓名对应的节点添加作者论文来源耦合关系;其中,所述初始关系图卷积神经网络模型为初始改进R-GCN模型;所述S3的将样本作者图结构输入初始关系图卷积神经网络模型,得到预测作者嵌入表示,包括:S31、对样本作者图结构进行边扰动处理以及节点扰动处理,并根据下述公式(1)计算第节点的第层隐藏节点,得到多样性训练样本: (1)其中,表示所有节点关系的集合,所述所有节点关系的集合根据作者高文献耦合关系、作者生僻字关系和作者论文来源耦合关系构建得到,表示节点关系集合中的每一个元素,表示与具有节点关系的节点集合,表示与具有关系的一个节点,表示常数,用来做归一化,定义为的绝对值,是节点关系对应的权重,指第j节点的第层隐藏向量,指激活函数;S32、将生成的多样性训练样本输入到初始改进R-GCN模型,得到预测作者嵌入表示;其中,S32的生成预测作者嵌入表示的过程包括下述步骤S321-S327:S321、对于样本作者图结构中的每条边,根据初始消息传递模块,将样本源作者姓名节点的节点特征传递给样本目标作者姓名节点,根据初始线性变换模块,将样本源作者姓名节点的节点特征与初始权重矩阵相乘,得到线性变换后的节点特征,将线性变换后的节点特征进行汇总,得到样本目标作者姓名节点的消息;S322、对于样本作者图结构中多个边对应的同一个样本目标作者姓名节点,根据初始消息聚合模块,将多个边分别汇总的消息进行求和处理,得到样本目标作者姓名节点的聚合消息;S323、根据初始特征更新模块,使用样本目标作者姓名节点的聚合消息,对样本目标作者姓名节点的特征进行更新;S324、根据初始层归一化模块,对样本目标作者姓名节点的更新后的特征进行层归一化;S325、根据初始自环更新模块,使用层归一化后的特征,对每个样本作者姓名节点进行更新;S326、根据初始Dropout模块,对每个样本作者姓名节点的更新后的特征进行Dropout操作;S327、根据初始输出模块,对Dropout操作后的特征进行处理得到输出数据,提取最后一层的输出数据作为样本作者节点嵌入表示;其中,所述改进R-GCN模型包括线性变换模块、消息传递模块、消息聚合模块、特征更新模块、层归一化模块、自环更新模块、Dropout模块以及输出模块;所述S7的将待消歧作者图结构输入到训练后的关系图卷积神经网络模型,生成作者嵌入表示,包括:S71、对于待消歧作者图结构中的每条边,根据消息传递模块,将源作者姓名节点的节点特征传递给目标作者姓名节点,根据线性变换模块,将源作者姓名节点的节点特征与训练后的权重矩阵相乘,得到线性变换后的节点特征,将线性变换后的节点特征进行汇总,得到目标作者姓名节点的消息;S72、对于待消歧作者图结构中多个边对应的同一个目标作者姓名节点,根据消息聚合模块,将多个边分别汇总的消息进行求和处理,得到目标作者姓名节点的聚合消息;S73、根据特征更新模块,使用目标作者姓名节点的聚合消息,对目标作者姓名节点的特征进行更新;S74、根据层归一化模块,对目标作者姓名节点的更新后的特征进行层归一化;S75、根据自环更新模块,使用层归一化后的特征,对每个作者姓名节点进行更新;S76、根据Dropout模块,对每个作者姓名节点的更新后的特征进行Dropout操作;S77、根据输出模块,对Dropout操作后的特征进行处理得到输出数据,提取最后一层的输出数据作为作者节点嵌入表示。

全文数据:

权利要求:

百度查询: 北京语言大学 基于关系图卷积神经网络的中文作者姓名消歧方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术