首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于超图随机游走的文档关键词抽取方法_杭州师范大学_202111388299.9 

申请/专利权人:杭州师范大学

申请日:2021-11-22

公开(公告)日:2024-04-19

公开(公告)号:CN114065758B

主分类号:G06F40/289

分类号:G06F40/289;G06F40/295;G06F40/30;G06F40/284;G06F40/268

优先权:

专利状态码:有效-授权

法律状态:2024.04.19#授权;2022.03.08#实质审查的生效;2022.02.18#公开

摘要:本发明公开了一种基于超图随机游走的文档关键词抽取方法。本发明方法对待处理文本信息进行清洗、分词、词性标注、去除停用词操作后,通过三种方法命名实体识别、名词块抽取以及最长序列匹配来获取候选关键词集。然后用超图的拓扑结构对文档进行结构化建模,根据TF‑IDF值和位置信息值为节点和超边加权,然后通过随机游走的迭计算每个节点重要性得分,再给候选关键词排序,选取重要性靠前的关键词作为输出。本发明方法能够获取词与词之间更完整的语义关系,更好的利用全文信息,提高关键词获取的准确性,可以适用于多样的应用场景。

主权项:1.一种基于超图随机游走的文档关键词抽取方法,其特征在于,该方法具体如下:1文本数据收集和数据预处理:在各大网站上采集文本数据,然后对采集到的文本数据进行清洗、分词、词性标注、去除停用词操作;具体是:1-1文本数据采集,获取待分析文档:在不对获取文档的格式、主题进行限定下,通过数据挖掘技术合法获取多个来源的文本数据;1-2文本数据清洗:对输入的数据进行噪音去除,再将文本数据的格式进行统一并保存;首先去除文本数据中多余的空格和特殊符号,然后将所有的数字用digit代替;再将英文字母统一为大写字母或者小写字母,将文本数据重新编码为UTF-8;最后将文本数据转换成统一的格式,进行格式化保存;1-3分词操作:将文本数据中连续的字序列按照规范重新组合成词序列,使用支持多语言的StanfordCoreNLP工具包对输入的文本数据进行分词;1-4词性标注:在给定句子中根据含义和上下文内容判定每个词的语法范畴,确定其词性并加以标注;对中文和英文文本分别采用jieba和StanfordCoreNLP进行词性标注,中文词性标记采用和ictclas兼容的标签体系,英文词性标记采用PennTreebank词性标签体系;1-5去除停用词:根据停用词表删除分词结果中的停用词;2提取候选关键词,得到候选关键词集合:将预处理后的文本分别采用命名实体识别、名词短语块抽取、最长序列匹配,得到三个集合,然后取三个集合的并集作为候选关键词集合;具体是:2-1命名实体识别:提取文本数据中的所有实体,识别其中的命名实体,得到命名实体集合;2-2名词短语块抽取:首先将一段文本数据分割成几段小段文本数据,得到组块集,然后对每个组块集进行组块分析,得到名词短语,获得短语块集合;2-3最长序列匹配:使用N-gram滑动窗口取词,将文本数据中的内容按照大小为N的滑动窗口进行选词操作,形成了长度是N的文本片段序列gram,并且对提取出来的文本片段序列gram进行过滤,形成关键词集合;3构建加权的超图节点,构建加权的超图边,利用随机游走计算候选关键词的重要性得分;具体是:3-1构建加权的超图节点:在预处理后的文本数据中,选择词性为名词、形容词、动词的单词作为超图节点,每个单词只作为一个超图节点,如果重复的单词的词性不同,则保留词性出现频率高的单词;文档集合表示为D={d1,d2,…,dN},其中dn表示文档集合中第n篇输入文档,n=1,2,…,N,N为文档集合D中文档的数量,dn={vn,1,vn,2,…,vn,M},vn,m为dn中第m个单词,m=1,2,…,M,M为词袋dn中单词数量;dn′为dn对应的由不同的单词vn,k所组成的词袋,dn′={vn,1,vn,2,…,vn,K},vn,k即为dn′中第k个节点,k=1,2,…,K,K为词袋dn′中节点数量;对dn′中节点vn,k计算TF-IDF值和位置信息得分得到该节点的初始权重3-2构建加权的超图边:计算词汇超图中每个节点的转移概率,节点vi到达节点vj之间的转移概率Wi,j为节点vi和节点vj共同隶属的所有超边度的和减1的值,Wi为节点vi能到达的所有节点共同隶属的所有超边度的和减1的值;转移概率Ti,j即为超边权重;3-3节点和超边构成了词汇超图HGnVn,En,Vn表示词汇超图HGn中所有不同单词构成的节点集合,Vn={vn,1,vn,2,…,vn,K},En表示词汇超图HGn中的超边集合,En={en,1,en,2,…,en,L},en,l为En中第l个超边,l=1,2,…,L,L为En中超边数量;如果vn,k∈en,l,HGn中的元素Hnvn,k,en,l=1,否则Hnvn,k,en,l=0;利用随机游走计算节点vi的重要性得分Svi;4对候选关键词集合中的关键词排序:对构成候选关键词的所有节点的重要性得分进行加和求平均,得到候选关键词的重要性得分;根据得分由高到低进行排序,选出排序前R个候选关键词作为文档dn最终预测的关键词。

全文数据:

权利要求:

百度查询: 杭州师范大学 一种基于超图随机游走的文档关键词抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。