买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:一铭寰宇科技(北京)有限公司
摘要:本发明公开了一种基于大数据的关键词生成方法及系统,涉及关键词生成技术领域,一种基于大数据的关键词生成系统,包括有:文本处理模块、层次主题模块、语义获取模块、验证模块、关键词生成模块和联合损失模块。本发明结合了大数据处理、层次主题模型以及深度学习技术,能够有效提取和生成关键词,通过对文档主题的层次结构进行建模,生成覆盖多层次主题的关键词,提升关键词的准确性和广度;利用预训练模型和主题分布的结合,确保生成的关键词不仅能够反映文档的全局语义,还能够捕捉上下文的细微差别,通过引入变分条件编码器(双向门控循环编码器),系统具备生成未在文档中直接出现的缺席关键词的能力,扩大了关键词生成的范围和灵活性。
主权项:1.一种基于大数据的关键词生成方法,其特征在于,包括:S1.获取需要生成关键词的分析文档d,对分析文档d进行初步的预处理操作,包括噪声处理、文本规范化和分词处理,将预处理后的分析文档d整理为词序列,将预处理后的分析文档d转换为词袋向量;S2.将词袋向量送入神经层次主题模型中,生成分析文档d的层次主题树,通过层次主题数获取分析文档d的主题分布θ和主题-词分布β,树的根节点表示最广泛的主题,叶节点表示更细分的主题,模型通过根节点到叶节点的概率计算分析文档d中每个词在不同层次中的路径分布,以及在当前层次的主题分布,通过路径分布和层次分布确定关键词的生成位置,确保关键词能覆盖所有重要主题;S3.在词序列的开头和结尾部分别添加[CLS]和[SEP]标记,使用在大数据集下预训练的BERT模型,将添加标记的词序列编码为上下文表征H:;将其中标记[CLS]的向量作为分析文档d的全局语义;将词序列送入双向门控循环编码器中进行建模,获取序列中每个词的语义表示,语义表示由一组上下文隐藏状态连续向量组成;;其中上下文向量包含了周围所有词对于i个词的信息,最后一个隐藏状态将用于计算主题的隐变量z;S4.通过分析文档d的主题分布θ和主题-词分布β,获取层次主题引导的高斯混合先验分布,通过隐藏状态和计算主题的隐变量z,并根据隐变量z和全局语义获取层次主题引导的高斯混合后验分布;S5.计算编码器隐藏状态的加权和,,其中为注意力权重,将和隐变量z送入前向门控循环解码器中进行关键词生成,前向门控循环解码器通过引入高斯混合分布作为隐变量,在关键词生成时,充分考虑文档的主题层次结构,全局语义作为条件传递给解码器,与主题分布结合;S6.对关键词生成进行联合损失训练,损失函数由三个部分组成,包括层次主题损失,关键词生成损失和KL散度损失,训练的目标为三个损失函数的线性组合,通过联合损失训练,有效结合层次主题和语义进行关键词生成。
全文数据:
权利要求:
百度查询: 一铭寰宇科技(北京)有限公司 一种基于大数据的关键词生成方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。