【发明授权】一种基于超图随机游走的文档关键词抽取方法_杭州师范大学_202111388299.9

导航：龙图腾网> 最新专利技术> 一种基于超图随机游走的文档关键词抽取方法_杭州师范大学_202111388299.9

申请/专利权人：杭州师范大学

申请日：2021-11-22

公开（公告）日：2024-04-19

公开（公告）号：CN114065758B

主分类号：G06F40/289

分类号：G06F40/289;G06F40/295;G06F40/30;G06F40/284;G06F40/268

优先权：

专利状态码：有效-授权

法律状态：2024.04.19#授权;2022.03.08#实质审查的生效;2022.02.18#公开

摘要：本发明公开了一种基于超图随机游走的文档关键词抽取方法。本发明方法对待处理文本信息进行清洗、分词、词性标注、去除停用词操作后，通过三种方法命名实体识别、名词块抽取以及最长序列匹配来获取候选关键词集。然后用超图的拓扑结构对文档进行结构化建模，根据TF‑IDF值和位置信息值为节点和超边加权，然后通过随机游走的迭计算每个节点重要性得分，再给候选关键词排序，选取重要性靠前的关键词作为输出。本发明方法能够获取词与词之间更完整的语义关系，更好的利用全文信息，提高关键词获取的准确性，可以适用于多样的应用场景。

主权项：1.一种基于超图随机游走的文档关键词抽取方法，其特征在于，该方法具体如下：1文本数据收集和数据预处理：在各大网站上采集文本数据，然后对采集到的文本数据进行清洗、分词、词性标注、去除停用词操作；具体是：1-1文本数据采集，获取待分析文档：在不对获取文档的格式、主题进行限定下，通过数据挖掘技术合法获取多个来源的文本数据；1-2文本数据清洗：对输入的数据进行噪音去除，再将文本数据的格式进行统一并保存；首先去除文本数据中多余的空格和特殊符号，然后将所有的数字用digit代替；再将英文字母统一为大写字母或者小写字母，将文本数据重新编码为UTF-8；最后将文本数据转换成统一的格式，进行格式化保存；1-3分词操作：将文本数据中连续的字序列按照规范重新组合成词序列，使用支持多语言的StanfordCoreNLP工具包对输入的文本数据进行分词；1-4词性标注：在给定句子中根据含义和上下文内容判定每个词的语法范畴，确定其词性并加以标注；对中文和英文文本分别采用jieba和StanfordCoreNLP进行词性标注，中文词性标记采用和ictclas兼容的标签体系，英文词性标记采用PennTreebank词性标签体系；1-5去除停用词：根据停用词表删除分词结果中的停用词；2提取候选关键词，得到候选关键词集合：将预处理后的文本分别采用命名实体识别、名词短语块抽取、最长序列匹配，得到三个集合，然后取三个集合的并集作为候选关键词集合；具体是：2-1命名实体识别：提取文本数据中的所有实体，识别其中的命名实体，得到命名实体集合；2-2名词短语块抽取：首先将一段文本数据分割成几段小段文本数据，得到组块集，然后对每个组块集进行组块分析，得到名词短语，获得短语块集合；2-3最长序列匹配：使用N-gram滑动窗口取词，将文本数据中的内容按照大小为N的滑动窗口进行选词操作，形成了长度是N的文本片段序列gram，并且对提取出来的文本片段序列gram进行过滤，形成关键词集合；3构建加权的超图节点，构建加权的超图边，利用随机游走计算候选关键词的重要性得分；具体是：3-1构建加权的超图节点：在预处理后的文本数据中，选择词性为名词、形容词、动词的单词作为超图节点，每个单词只作为一个超图节点，如果重复的单词的词性不同，则保留词性出现频率高的单词；文档集合表示为D＝{d1,d2,…,dN}，其中dn表示文档集合中第n篇输入文档，n＝1,2,…,N，N为文档集合D中文档的数量，dn＝{vn,1,vn,2,…,vn,M}，vn,m为dn中第m个单词，m＝1,2,…,M，M为词袋dn中单词数量；dn′为dn对应的由不同的单词vn,k所组成的词袋，dn′＝{vn,1,vn,2,…,vn,K}，vn,k即为dn′中第k个节点，k＝1,2,…,K，K为词袋dn′中节点数量；对dn′中节点vn,k计算TF-IDF值和位置信息得分得到该节点的初始权重3-2构建加权的超图边：计算词汇超图中每个节点的转移概率，节点vi到达节点vj之间的转移概率Wi,j为节点vi和节点vj共同隶属的所有超边度的和减1的值，Wi为节点vi能到达的所有节点共同隶属的所有超边度的和减1的值；转移概率Ti,j即为超边权重；3-3节点和超边构成了词汇超图HGnVn,En，Vn表示词汇超图HGn中所有不同单词构成的节点集合，Vn＝{vn,1,vn,2,…,vn,K}，En表示词汇超图HGn中的超边集合，En＝{en,1,en,2,…,en,L}，en,l为En中第l个超边，l＝1,2,…,L，L为En中超边数量；如果vn,k∈en,l，HGn中的元素Hnvn,k,en,l＝1，否则Hnvn,k,en,l＝0；利用随机游走计算节点vi的重要性得分Svi；4对候选关键词集合中的关键词排序：对构成候选关键词的所有节点的重要性得分进行加和求平均，得到候选关键词的重要性得分；根据得分由高到低进行排序，选出排序前R个候选关键词作为文档dn最终预测的关键词。

全文数据：

权利要求：

百度查询：杭州师范大学一种基于超图随机游走的文档关键词抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种磁性吸附材料及其制备方法和应用_国家粮食和物资储备局科学研究院_202310376075.9

下一篇：一种轻量非晶合金及其制备方法_东莞市逸昊金属材料科技有限公司_202211701845.4

相关技术

一种磁性吸附材料及其制备方法和应用_国家粮食和物资储备局科学研究院_202310376075.9

一种轻量非晶合金及其制备方法_东莞市逸昊金属材料科技有限公司_202211701845.4

一种冰醋酸中微量乙酸酐的检测方法_浙江圣兆药物科技股份有限公司_202211266952.9

老旧小区改造电梯加装用施工吊篮_四川华奥电梯有限公司_202210866326.7

促进多面板用户设备的不连续接收_诺基亚技术有限公司_201880095028.4

一种诱导阴地蕨孢子萌发、有效培养原叶体的培养基及方法_毕节市中药研究所_202310551441.X

温度控制方法、装置、设备以及存储介质_深圳市汇川技术股份有限公司_202211206401.3

一种车钩安装座高效焊接装置_南京海高德新技术有限公司_202311587530.6

烤烟烟叶面积的测量方法及系统_河南启迪睿视智能科技有限公司_202210505490.5

基于零代词补齐的汉越数据增强方法_昆明理工大学_202210374347.7

一种露头岩层非均质性的模型构建方法_岭南师范学院_202310948270.4

利拉鲁肽的合成_拜康有限公司_201780086325.8

文档相关技术

基于JAVA代码输出文档的方法和系统_永中软件股份有限公司_202211652069.3

文档处理方法、装置、设备及存储介质_中国建设银行股份有限公司_202410478310.8

文档编辑方法、装置和电子设备_北京字跳网络技术有限公司_202011287612.5

一种接口文档扫描获取设备_北京北极狐信息科技有限公司_202323445889.8

文档发布方法、装置及服务器_腾讯科技(深圳)有限公司_202010586693.2

协作文档访问记录和管理_谷歌有限责任公司_202410336972.1

文档生成方法、装置、电子设备及存储介质_广州金山移动科技有限公司_202211635452.8

一种文档比对方法、装置、电子设备及存储介质_珠海豹趣科技有限公司_202410355363.0

业务数据的管理方法及装置、文档标签的管理方法及装置_珠海金山办公软件有限公司_202111055543.X

一种文档摘要的生成方法和装置_联想(北京)有限公司_202410466025.4

游走相关技术

基于随机游走的用户信令轨迹与城市道路拟合方法与系统_北京市大数据中心_202410402083.0

一种基于模糊粒随机游走的电力物联网篡改检测方法及装置_国网四川省电力公司营销服务中心_202410301398.6

一种基于随机游走的小股行人重识别方法及系统_南京信息工程大学_202410496315.3

基于三支置信度引导的随机游走机制的Transformer可解释性方法_南通大学_202410162283.3

基于强化学习和任务感知随机游走的深度学习任务调度方法和系统_北京大学_202211398671.9

一种基于超图随机游走的文档关键词抽取方法_杭州师范大学_202111388299.9

基于随机游走算法的分布式灵活资源集群划分方法及系统_国网江苏省电力有限公司扬州供电分公司_202311814964.5

高精度光纤陀螺角度随机游走的自动化求解方法和系统_北京航天时代光电科技有限公司_202311723196.2

一种基于双模式网络游走融合的新曲生成方法_湖南工程学院_202011474157.X

一种基于CPU-FPGA的大规模图上的随机游走异构计算系统_北京工业大学_202110092736.6

关键词相关技术

提示词的优化方法和系统_支付宝(杭州)信息技术有限公司_202410414404.9

一种关键负载稳压装置_华北电力大学_202211189303.3

敏感词的识别和替换方法及其装置_四川易景智能终端有限公司_202410418406.5

人体姿态图像的关键点检测方法_南通大学_202011568007.5

一种基于词嵌入模板匹配的事故报告抽取方法及设备_敏博科技(武汉)有限公司_202410416403.8

一种基于双向序列生成的汉语篇章连接词识别方法_华东交通大学_202410417577.6

一种唤醒词激活概率的确定方法、装置和智能语音产品_上海汽车集团股份有限公司_202110759228.9

敏感词检测方法、装置、电子设备及存储介质_马上消费金融股份有限公司_202210003431.8

基于零代词补齐的汉越数据增强方法_昆明理工大学_202210374347.7

搜索词的显示方法、装置、存储介质及计算机程序产品_北京达佳互联信息技术有限公司_202111017391.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种基于超图随机游走的文档关键词抽取方法_杭州师范大学_202111388299.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务