恭喜北京工业大学张丽获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京工业大学申请的专利基于深度学习的文本摘要获取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114298037B 。
龙图腾网通过国家知识产权局官网在2025-03-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111662780.2,技术领域涉及:G06F40/289;该发明授权基于深度学习的文本摘要获取方法是由张丽;遆敬苗设计研发完成,并于2021-12-31向国家知识产权局提交的专利申请。
本基于深度学习的文本摘要获取方法在说明书摘要公布了:本发明公开了基于深度学习的文本摘要获取方法,本方法首先抽取原文档的关键词;构建Encoder模块提取全局语义信息;构建图卷积模块提取局部语义信息;构建Decoder模块生成文本摘要。文本摘要任务是对海量文本数据的提炼和总结,通过将海量的文本数据压缩成简单、直观的摘要来节约用户浏览文本数据的时间成本。本方法将关键点作为局部特征,原文本作为全局特征,获得丰富的原文本的语义表示;生成高质量摘要的前提是理解原文本语义;利用图卷积更新了特征之间的权重,进一步促进了语义信息的传递,并且抑制了无意义的消息传递,从而获得的原文本的语义信息更能体现原文的中心思想,从而保证生成的摘要能够体现原文本的中心,避免生成无中心思想的摘要。
本发明授权基于深度学习的文本摘要获取方法在权利要求书中公布了:1.基于深度学习的文本摘要获取方法,其特征在于:本方法包括以下步骤:步骤1,提取原文本的关键词;通过提取出若干个代表文章语义内容的关键词作为文本的局部信息;提取原文档的关键词,基于无监督的思想提取原文本关键词的步骤如下:步骤1.1考虑词的位置信息,首句和末句出现的词语是关键词的概率高,将文档的首句和末句分别重复3次,从而增加关键词在首句和末句的词频;步骤1.2将文本进行分词,利用每个词的tf-idf统计信息,挑选出20个词语作为候选关键词;步骤1.3将步骤1.2得到的关键词进行进一步筛选:使用Doc2Vec获得文档的向量表示d,使用Word2Vec获得候选关键词的向量表示w;根据w和d的余弦距离对候选关键词进行排序,从初始的候选关键词中挑选出与文档接近的关键短语,关键词与文档越接近,说明信息量越大,从而保证得到的关键词与文档更具有相关性;步骤1.4为避免最终关键词出现冗余,即提取出来的关键词虽然具有不同的表达方式,但具有相同的含义,因而需要对步骤1.3得到的关键词进行二次筛选:根据候选关键词之间的余弦距离进行排序,对于有相同语义的关键词,只保留一个;步骤2,构建Encoder模块;Encoder模块的目的是对输入的文本进行编码,即向量化表示;Encoder模块使用Transformer的编码器模块最终获得具有语义特征、上下文特征的原文本的语义表示,成为全局语义信息;步骤3,构建图卷积模块;在步骤1中得到不同关键词的语义信息,为挖掘更有效的局部语义特征,利用图卷积的方法,将局部特征加入关系特征,从而得到具有关系信息的局部语义信息;在图卷积中,输入包括节点和邻接矩阵,其中节点为步骤1提取出来的局部语义信息,节点之间是有关系的,邻接矩阵表示节点之间的关系程度,然后使用图卷积自适应学习每个关键词之间的关系权重,得到关键词之间的邻接矩阵后,将其和初始的语义信息相乘,得到关系特征,再将关系特征与初始特征融合,得到新的一轮特征;步骤4,构建Decoder模块;Decoder模块的目的是生成原文本的摘要,指针生成器网络是一个带有复制机制的seq2seq模型,根据生成器和指针的概率分布预测单词,其中生成器利用encoder模块输出的背景向量、decoder当前步的隐藏层以及decoder上一步预测的输出来预测当前步的词汇,生成器预测的摘要为词汇表中的单词,预测原文档之外的单词,指针的概率分布预测的单词为指针指向的原文档中的文本,因此指针生成器网络生成的摘要既能够生成新的词汇,也能够复制原文档中的文本;指针生成器网络看作是提取方法和抽象方法之间的平衡,通过复制单词提高了未登录词的准确性和处理能力,同时保留了产生新词的能力;使用带有注意力机制的RNN作为解码器来输出摘要。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。