Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜哈尔滨工业大学赵铁军获国家专利权

恭喜哈尔滨工业大学赵铁军获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜哈尔滨工业大学申请的专利一种基于图模型和词嵌入模型的关键词抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115034216B

龙图腾网通过国家知识产权局官网在2025-05-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210606979.1,技术领域涉及:G06F40/289;该发明授权一种基于图模型和词嵌入模型的关键词抽取方法是由赵铁军;郭常江;朱聪慧;杨沐昀;曹海龙;徐冰设计研发完成,并于2022-05-31向国家知识产权局提交的专利申请。

一种基于图模型和词嵌入模型的关键词抽取方法在说明书摘要公布了:本发明提出了一种基于图模型和词嵌入模型面向新闻领域的关键词抽取方法,本发明首先需要将新闻文本进行清洗,去除其中无用信息;然后通过文本处理模块,得到新闻文本中的潜在关键词和词频信息;之后采用图模型和预训练的词嵌入模型对关键词进行语义空间映射,最后融合前述两个模型对关键词的排序分布获得最后关键的分布,从而获得新闻文本关键词;本发明能够改进新闻文本关键词提取的精度,进一步提高舆情分析系统在针对新闻文本分析时内容检索的准确性,更为全面地覆盖新闻文本的主要信息,节省人工复核的时间。

本发明授权一种基于图模型和词嵌入模型的关键词抽取方法在权利要求书中公布了:1.一种基于图模型和词嵌入模型的关键词抽取方法,其特征在于:所述方法具体包括以下步骤:步骤1:对新闻文本进行清理,去除无效信息;步骤2:对步骤1清理后的新闻文本进行处理,获得待选关键词组、位置与词频信息;步骤2.1:使用分词工具对步骤1中获得的文本进行分词,得到分词结果;步骤2.2:使用词性标注工具对上述分词结果进行词性标注,得到每个分词的词性;步骤2.3:构建语法解析树的规则:保留人物、地点、动词、名词一类的分词,并且如果有连续的名词或者是形容词和名词,则将其组合在一起形成待选关键词组;步骤2.4:使用语法解析工具对上述规则和词性标注结果进行处理,获得待选关键词组,同时获得每个待选关键词组相对于源文本第一个字符的位置偏移,即位置信息;步骤2.5:统计步骤2.4中待选关键词组在源文本中出现的频率信息;步骤3:使用预训练的词嵌入模型,对步骤1和步骤2所获得的文本进行嵌入并计算,得到每一个分词以及整篇文章的向量表示,进行相似度计算,得到关键词分布1;步骤3.1:将步骤2.1获得的分词结果输入到预训练模型ELMO中,获得每一层每一个分词的词嵌入表示其中l∈{0,1,2}分别代表EMLO的第一层、第二层、第三层LSTM表示;i∈[0,N]表示文章分词结果的第i个位置,表示文章第i个分词结果在ELMO模型中第l层的词嵌入表示,N表示文章分词结果的个数;步骤3.2:ELMO的三层表示具有不同的权重,根据权重和步骤3.1获得的词嵌入表示获得每个词的Embeddingi,公式如下: 步骤3.3:根据步骤2.3和步骤2.4获得待选关键词组以及位置信息,将待选关键词所涉及的分词的词嵌入表示向量相加得到待选关键词组表示KeyPhrasei,在向量相加的时候考虑每个分词在当前的待选关键词组中的相对位置信息,具体融合公式如下: 其中m表示待选关键词组由m个分词结果组成,Embeddingi,j表示第i个待选关键词组中的第j个分词结果的嵌入表示;步骤3.4:根据步骤2.5所获得的待选关键词组频率信息和步骤3.3获得的每个分词表示,计算文章的嵌入向量表示,计算公式如下: 其中Frei表示第i个待选关键词组出现的频率,N表示文章分词结果个数;步骤3.5:根据步骤3.3和步骤3.4所获得的待选关键词组表示和文章表示,计算余弦相似度,公式如下:similarityi=cosdocEmbedding,KeyPhrasei步骤3.6:使用结巴分词自带的频率词典对步骤3.5的结果进行校正,公式如下: 其中JiebaFrei表示第i个待选关键词组在结巴分词词表中的默认频率;步骤3.7:对步骤3.6的结果结合每个待选关键词组位置进行校正,公式如下: 其中posi表示每个待选关键词组在原文中第一次出现的位置;步骤3.8:将步骤3.7的similarity″i组合,得到关键词分布1distribution1:distribution1={similarity″0,…,similarity″N}步骤4:使用步骤1和步骤2的文本信息以及步骤3的文本向量表示,应用于图模型中,获得关键词分布2;步骤4.1:依照步骤3获取dicEmbedding的流程,获取每一个新闻的标题表示,即titleEmbedding;步骤4.2:构建图模型TextRank模型,模型中节点代表待选关键词组,节点权重nodeWeight代表待选关键词组的重要程度,节点之间的边edge仅当两两节点在原文中的固定大小的窗口中同时出现过时才会建立;步骤4.3:根据步骤3.3获得的待选关键词组向量表示,初始化图模型的节点权重,按照如下公式计算节点初始权重: 其中N表示全部待选关键词组个数,α∈[0,1]是调节因子;步骤4.4:根据步骤3.3获得的待选关键词组向量表示,初始化图模型中边的权重,按照如下公式计算边的初始权重: 其中Frei,j表示节点i和节点j在固定大小的窗口中出现的频率,β∈[0,1]是调节因子;步骤4.5:使用以上重新定义的节点权重和边权重,进行TextRank的计算,待图模型收敛后,得到节点的收敛权重值,并得到关键词分布2distribution2:distribution2={nodeWeight0,…,nodeWeightN}步骤5:融合关键词分布1和关键词分布2,获得最终关键词分布,完成新闻文本关键词的获取;步骤5.1:获取步骤3.8和步骤4.5的关键词分布1和关键词分布2,得到其关键词分布1和关键词分布2中每个关键词对应的相似度数值和重要程度;步骤5.2:根据步骤5.1的结果,计算得到最终待选关键词组的分布FinalDistribution,公式如下:scorei=γ·similarity″i+1-γ·nodeWeightiFinalDistribution={score0,…,scoreN}步骤5.3:从FinalDistribution中选取数值最高的前K个待选关键词组作为最终的关键词结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。