一种基于single-pass的文本聚类方法及其装置

导航：龙图腾网> 最新专利技术> 一种基于single-pass的文本聚类方法及其装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：南京中孚信息技术有限公司

摘要：本发明公开了一种基于single‑pass的文本聚类方法及其装置,首先通过对文本数据集进行预处理，得到文本数据信息；然后计算所述数据信息分词的TF‑IDF值；接着将得到权重最高的20个词使用CBOW词向量模型生成向量，最后根据所述文本数据信息中的词向量，通过文本聚类算法得到文本聚类结果，通过计算用户选择簇中心特征和簇内文本特征的jaccard相似系数，实现二次聚类。本发明通过增加聚类中心，使得新文档与簇进行计算时，只需要与簇内中心向量进行计算，大大减少了计算量，增加了计算的速率，并且通过jaccard相似系数，实现利用簇中心特征和文本特征对聚类结果的二次调整，优化输入数据顺序敏感问题。

主权项：1.一种基于single-pass的文本聚类方法，其特征在于，包括以下步骤：步骤1、输入文本数据集；步骤2、对输入的文本数据集进行预处理，对输入的文本数据集进行分词，去除文本数据集中无用的标签、特殊符号和停用词，将大写字母转换成小写，得到文本分词；步骤3、计算所述文本分词的TF-IDF值，取TF-IDF值最高的20个文本分词，作为词向量模型的输入；步骤4、采用基于CBOW的词向量模型，将分词后的文本数据集输入到词向量模型中，输出文本数据集对应的词向量；步骤5、基于single-pass的文本聚类方法，设定聚类相似度阈值，将第一篇文本数据作为首个簇，，T为文本数据集，第一篇文本数据的文本分词w作为簇的中心特征h；将第i篇文本数据加入到single-pass的文本聚类方法中，计算第i篇文本数据与全部簇的余弦相似度，如果，则该文本数据属于当前簇；步骤6、重复步骤4和步骤5，直到文本数据集处理完毕，聚类结束；步骤7、若聚类结果不需要调整，则流程结束；反之，用户通过选择簇的中心特征h实现对当前簇内成员的调整，具体步骤如下：通过计算用户选择簇的中心特征h与文本分词w的jaccard相似系数，当，簇内保留当前文本数据；反之，则剔除该文本数据，得到最终的聚类结果。

全文数据：

权利要求：

百度查询：南京中孚信息技术有限公司一种基于single-pass的文本聚类方法及其装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种覆铜板加工用表面整平装置

下一篇：显示装置

相关技术

一种覆铜板加工用表面整平装置

显示装置

一种飞机液压牵引系统横向稳定性实验平台

一种铸造铝合金熔体净化处理的方法及装置

一种带有光路定向机构的车载顶灯

一种音视频混合数字多码加密方法

一种铜光催化未活化卤代烃胺化制备氮烷基化化合物的方法

一种节能建筑屋顶结构及施工方法

一种可降解咖啡渣复合材料及其制备方法与制品

一种高安全性的并机并网的储能设备

一种蓝牙耳机及蓝牙耳机装置

BC电池激光划线设备

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于single-pass的文本聚类方法及其装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务