买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京工业大学
摘要:本公开提供了一种引文重要性识别方法、装置、电子设备及计算机存储介质,涉及科学计量、情报分析和机器学习领域。该方法包括:获取施引文献和被引文献的信息,在施引文献中提取出被引文献对应的引用语境信息,确定施引文献与被引文献之间的第一关系特征;通过产生式模型提取施引文献与被引文献的第二关系特征;确定被引文献对施引文献的重要度。本公开实施例根据引用语境信息确定第一关系特征,利用预设的产生式模型提取施引文献和被引文献的第二关系特征,然后采用通过判别式模型确定的规则,根据第一关系特征和第二关系特征对被引文献在施引文献中的重要性进行分析,通过产生式模型和判别式模型相结合,提高重要性引文的识别效果。
主权项:1.一种引文重要性的识别方法,其特征在于,包括:获取施引文献的全文文本信息和基本信息,以及所述施引文献的被引文献的基本信息;根据所述被引文献的基本信息,在所述施引文献的全文文本信息中提取出所述被引文献对应的引用语境信息,并确定所述被引文献在所述施引文献中的引用位置;根据所述引用语境信息和所述引用位置,确定所述施引文献与所述被引文献之间的第一关系特征;根据所述施引文献的基本信息,以及所述被引文献的基本信息,通过产生式模型提取所述施引文献与所述被引文献的第二关系特征;根据所述第一关系特征和第二关系特征,确定所述被引文献对所述施引文献的重要度;在所述第一关系特征包括结构特征和线索词特征时,所述根据所述引用语境信息和所述引用位置,确定所述施引文献与所述被引文献之间的第一关系特征,包括:根据所述引用位置确定所述被引文献在所述施引文献的各章节中被提及的频次、所述施引文献提及所述被引文献的章节数量;通过正则表达式统计出现在所述引用语境信息中的重要线索词和不重要线索词的数量;所述根据所述被引文献的基本信息,在所述施引文献的全文文本信息中提取出所述被引文献对应的引用语境信息,包括:根据所述被引文献的作者信息和出版年份信息构建正则表达式;根据所述正则表达式在所述施引文献的全文文本信息中进行匹配,提取得到所述引用语境信息;所述第一关系特征包括结构特征、被引用次数特征、单独引用特征、作者重叠特征、线索词特征以及相似度特征中的至少一项;所述第二关系特征包括所述施引文献和所述被引文献的主题相似度、以及相对于所述施引文献的所述被引文献的多项式分布中的至少一项;使用NLTKNaturalLanguageToolkit工具包对所有的引用语境、摘要文本信息进行预处理,包括去除所有的标点、数字、HTML,并进行分词、词性标注、词形还原、停用词过滤,得到清洗后的引用语境、摘要文本信息,提取第一关系特征,其中,第一关系特征共13个,分为6组,包括结构特征、被引次数特征、单独引用特征、作者重叠特征、线索词特征以及相似度特征,下面对这6组特征分别进行介绍:结构特征组包括7个特征,分别统计相应引文被“引言Introduction”、“相关工作RelatedWork”、“方法Method”、“实验Experiment”、“讨论Discussion”及“结论Conclusion”6个章节提及的频次,以及提及该引文的章节数量;被引次数特征指被引文献收到的引用总数,应用公式1对其进行标准化, 其中,TC是被引文献收到的引用总数,Ys是检索被引频率的年份,Yciting和Ycited分别是施引文献和被引文献的出版年份;单独引用特征通过计算施引文献中被引文献单独引用数量占所有引用数的比例得到,见公式2: 其中,Sc是目标文献被单独引用的数量,Gc是该文献在施引文献正文中被提及的总数;作者重叠特征通过将姓氏,名字和中间名的首字母组合成每个作者的标识符来识别和区分作者,如果施引文献和被引文献至少共享1位作者,则该特征为1,否则为0;线索词特征基于创建的线索词列表,包含81个重要线索词和51个不重要线索词,通过正则表达式匹配来统计出现在引用语境中的重要线索词和不重要线索词的数量;相似度特征G7通过术语频率将引用语境与被引文献摘要进行向量化表示,然后通过余弦相似度计算二者之间的相似性。
全文数据:
权利要求:
百度查询: 北京工业大学 引文重要性的识别方法、装置、电子设备及计算机存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。