首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种科技文献研究问题句识别方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院文献情报中心

摘要:本发明公开了一种科技文献研究问题句识别方法及系统,涉及问题句识别技术领域,该方法包括:获得Q条研究问题句和P条非研究问题句;获得目标初始分类识别模型;对科技文献数据库进行迭代识别,获得研究问题句语料库;进行聚集分析,获得目标词性和目标结构位置;抽取目标结构位置处的特征词,获得特征词集合;对特征词集合进行词频分析,构建特征权重向量映射层;将特征权重向量映射层与目标初始分类识别模型的输出层相连,获得目标分类识别模型。本发明解决了现有技术中问题句识别模型分类精度较低,无法对不同特征词的重要程度进行差异化区分的技术问题,达到了融合研究问题句特征词和特征词重要程度,提升分类准确性的技术效果。

主权项:1.一种科技文献研究问题句识别方法,其特征在于,所述方法包括:提取科技文献数据库中的多篇科技文献进行研究问题句识别,获得Q条研究问题句和P条非研究问题句;以所述Q条研究问题句和所述P条非研究问题句作为训练数据,利用预训练模型对训练数据进行分类学习,获得目标初始分类识别模型;利用所述目标初始分类识别模型对所述科技文献数据库进行迭代识别,获得研究问题句语料库;对所述研究问题句语料库中的研究问题句的词性和句法结构进行聚集分析,获得目标词性和目标结构位置;以所述目标结构位置为索引,对所述研究问题句语料库进行检索,抽取所述目标结构位置处的特征词,获得特征词集合;对所述特征词集合进行词频分析,构建特征权重向量映射层;将所述特征权重向量映射层与所述目标初始分类识别模型的输出层相连,获得目标分类识别模型;以所述Q条研究问题句和所述P条非研究问题句作为训练数据,利用预训练模型对训练数据进行分类学习,获得目标初始分类识别模型,所述方法包括:将所述Q条研究问题句和所述P条非研究问题句组成的训练数据按照预设比例划分为训练集和验证集;将所述训练集均分为n组,依次对所述预训练模型进行训练,学习对问题句的分类,并将所述验证集中的多条研究问题句和非研究问题句输入所述预训练模型中,获得验证研究问题句集合和验证非研究问题句集合;分别统计所述验证研究问题句集合与所述验证集中的多条研究问题句之间的第一重合度和所述验证非研究问题句集合与所述验证集中的多条非研究问题句之间的第二重合度,并对统计结果进行加权计算,根据加权计算结果获得模型输出准确度;所述获得模型输出准确度,之后所述方法还包括:判断所述模型输出准确度是否满足预设准确度阈值,若否,则根据所述模型输出准确度对所述预训练模型进行网络参数更新,并利用更新后的预训练模型对下一组训练集进行监督学习;若是,则训练完成,获得所述目标初始分类识别模型;对所述研究问题句语料库中的研究问题句的词性和句法结构进行聚集分析,获得目标词性和目标结构位置,所述方法包括:对所述研究问题句语料库进行关键词识别,获得关键词集合,其中,所述关键词集合中包括K个关键词,其中,所述K个关键词具有K个词性标识和K个结构位置标识;将所述K个词性标识中的众数作为目标词性;以所述目标词性为索引对所述K个关键词进行检索,获得目标关键词集合;根据所述目标关键词集合和所述K个结构位置标识进行聚集分析,确定所述目标结构位置;对所述特征词集合进行词频分析,构建特征权重向量映射层,所述方法包括:以特征词类型为索引,在所述特征词集合中进行检索,获得M个特征词的M个频次标识;将所述M个特征词作为M个特征粒子,并利用所述M个频次标识对M个特征粒子进行标识,根据所述M个特征粒子构建词频筛选空间;从所述词频筛选空间中随机选取第一特征粒子,统计第一区域内多个特征粒子的数量,获得第一统计量,其中,所述第一区域为以所述第一特征粒子为中心,以预设第一步长为半径构建的区域;按照预设幅度对所述预设第一步长进行随机方向调整,获得第一调整步长,统计第二区域内多个特征粒子的数量,获得第二统计量,其中,所述第一调整步长具有第一调整方向,所述第二区域为以所述第一特征粒子为中心,以所述第一调整步长为半径构建的区域;所述获得第二统计量,之后所述方法还包括:判断所述第二统计量与所述第一统计量的差值是否满足预设差值,若是,则按照第一调整方向,根据所述预设幅度继续对所述第一调整步长进行调整;若否,则将第一区域内的多个特征粒子作为第一特征粒子簇,将所述第一统计量对所述第一特征粒子簇进行标识,并将所述第一特征粒子簇从所述词频筛选空间中剔除,获得更新后的词频筛选空间,再次从所述更新后的词频筛选空间中随机选取第二特征粒子;所述方法还包括:基于所述第二特征粒子进行粒子簇确定,获得第二特征粒子簇;经过多次剔除调整,获得多个特征粒子簇;分别统计所述多个特征粒子簇的多个统计量与所述多个特征粒子簇的多个统计量之和的比值,获得多个特征权重;基于所述多个特征粒子簇映射获得多个特征词映射集合,结合所述多个特征权重构建所述特征权重向量映射层,其中,所述多个特征词映射集合与所述多个特征权重一一对应。

全文数据:

权利要求:

百度查询: 中国科学院文献情报中心 一种科技文献研究问题句识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。