首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种提取技术成果、技术需求的关键词和文摘的方法_青岛檬豆网络科技有限公司_202111565133.X 

申请/专利权人:青岛檬豆网络科技有限公司

申请日:2021-12-20

公开(公告)日:2024-06-11

公开(公告)号:CN114328826B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/34;G06F40/216;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.06.11#授权;2022.04.29#实质审查的生效;2022.04.12#公开

摘要:一种提取技术成果、技术需求的关键词和文摘的方法,所述方法包括如下步骤:步骤一:文本预处理,包括对文本中的英文字符,进行统一处理,均采用小写进行表示;步骤二:基于TextRank的方法提取关键词;步骤三:提取文摘。本发明采用TextRank的方法提取技术成果、技术需求的关键词,来描述其主要内容或主要诉求。同时提取技术成果、技术需求的文摘,便于阅读、查询、搜索等功能。能够通过“关键词”的方式,简洁、清晰的描述技术成果、技术需求。加快用户查询、搜索技术成果或技术需求时的时间和效率。对技术成果或技术需求提取关键词存储后,在后续的查询和匹配方面,能够加快查询和匹配的速度,解决部分词库不全导致的关键词不完整的情况。

主权项:1.一种提取技术成果、技术需求的关键词和文摘的方法,其特征在于,所述方法包括如下步骤:步骤一:文本预处理,包括对文本中的英文字符,进行统一处理,均采用小写进行表示;步骤二:基于TextRank的方法提取关键词,具体包括:1把给定的文本T按照完整句子进行分割,即T=[S1,S2,…,Si,…,Sm]2对于每个句子Si∈T,进行分词和词性标注处理,并过滤停用词,只保留指定词性的单词,即Si=[ti,1,ti,2,…,ti,j,…],其中ti,j∈Sj是保留后的候选关键词;3构建候选关键词图G=V,E,由点集合V和边集合E组成,E是V×V的子集,其中V为节点集,由2生成的候选关键词组成,然后采用共现关系构造任两点之间的边,两个节点之间存在边,仅当它们对应的词汇在长度为k的窗口中共现,k表示窗口大小,即最多共现k个单词,设置k=2;4根据公式1,迭代传播各节点的权重,直至达到停止条件; 其中,WSVi表示句子Si的权重得分;wji表示两个句子Si、Sj之间边的权重,用两个句子的相似度表示;WSVj表示上次迭代出的句子Sj的权重;d为阻尼系数,代表从图中某一节点指向其他任意节点的概率,取d=0.85;InVi为指向Vi节点的集合,OutVj为Vj节点指出的集合;各个节点的权重得分,初始化为1; 其中,Si,Sj表示两个句子;wk表示句子中的词;|wk|wk∈Si∩wk∈Sj|表示同时出现两个句子中的同义词的数量;log|Si|+log|Sj|表示对句子中词的个数求对数后的求和;wji表示计算两个节点之间,即两个句子之间的相似度;5对节点权重进行倒叙排序,即按照权重得分由大到小排序,按照点集V中的词进行排序并且不改变点集中的词的顺序,从而得到最重要的top_t个单词,作为候选关键词,top-t根据使用过程或具体情境进行设置,先设置top_t=15;6由5得到最重要的top_t个单词,在原始文本中进行标记,并进行以下处理:①若形成相邻词组且文中出现次数满足条件则组合成多词关键词,暂定δ=0.8;其中,wi,wj表示词wi,wj构成的词组,|wi|wi∈T|表示文本T中词wi出现的次数,|wj|wj∈T|表示文本T中词wj出现的次数,max|wi|wi∈T|,|wj|wj∈T|表示文本T中出现词wi,wj的较大值;②若形成相邻词组且文中出现次数满足条件则组合成多词关键词和出现次数较多的词;7由6进行多词关键词的处理后,得到关键词列表,记作Keynow=[keyn1,keyn2,…,keyni,…];其中,keyni表示当前技术成果列表Keynow的第i个关键词;8去关键词,得到当前技术成果的最终关键词列表;将得到的关键词列表,添加到已有关键词总列表中,刷新其出现在技术成果的描述中的篇数;已在关键词总列表中的关键词,即将该关键词对应的次数+1;若关键词总列表中无关键词,则在关键词总列表中增加该关键词,并记录其篇数为1;其中的关键词总列表,是目前所有技术成果中提取的关键词列表,及各关键词出现在技术成果描述中的篇数每出现在一篇技术成果中,篇数+1;步骤三:提取文摘1根据二4计算的节点权重,进行倒叙排序,即按照权重得分由大到小排序,抽取文摘句,抽取重要度最高的top_n个句子作为候选文摘句;2形成文摘,根据句子数或字数要求,从候选文摘句中抽取句子组成文摘。

全文数据:

权利要求:

百度查询: 青岛檬豆网络科技有限公司 一种提取技术成果、技术需求的关键词和文摘的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。