首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于single-pass的文本聚类方法及其装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京中孚信息技术有限公司

摘要:本发明公开了一种基于single‑pass的文本聚类方法及其装置,首先通过对文本数据集进行预处理,得到文本数据信息;然后计算所述数据信息分词的TF‑IDF值;接着将得到权重最高的20个词使用CBOW词向量模型生成向量,最后根据所述文本数据信息中的词向量,通过文本聚类算法得到文本聚类结果,通过计算用户选择簇中心特征和簇内文本特征的jaccard相似系数,实现二次聚类。本发明通过增加聚类中心,使得新文档与簇进行计算时,只需要与簇内中心向量进行计算,大大减少了计算量,增加了计算的速率,并且通过jaccard相似系数,实现利用簇中心特征和文本特征对聚类结果的二次调整,优化输入数据顺序敏感问题。

主权项:1.一种基于single-pass的文本聚类方法,其特征在于,包括以下步骤:步骤1、输入文本数据集;步骤2、对输入的文本数据集进行预处理,对输入的文本数据集进行分词,去除文本数据集中无用的标签、特殊符号和停用词,将大写字母转换成小写,得到文本分词;步骤3、计算所述文本分词的TF-IDF值,取TF-IDF值最高的20个文本分词,作为词向量模型的输入;步骤4、采用基于CBOW的词向量模型,将分词后的文本数据集输入到词向量模型中,输出文本数据集对应的词向量;步骤5、基于single-pass的文本聚类方法,设定聚类相似度阈值,将第一篇文本数据作为首个簇,,T为文本数据集,第一篇文本数据的文本分词w作为簇的中心特征h;将第i篇文本数据加入到single-pass的文本聚类方法中,计算第i篇文本数据与全部簇的余弦相似度,如果,则该文本数据属于当前簇;步骤6、重复步骤4和步骤5,直到文本数据集处理完毕,聚类结束;步骤7、若聚类结果不需要调整,则流程结束;反之,用户通过选择簇的中心特征h实现对当前簇内成员的调整,具体步骤如下:通过计算用户选择簇的中心特征h与文本分词w的jaccard相似系数,当,簇内保留当前文本数据;反之,则剔除该文本数据,得到最终的聚类结果。

全文数据:

权利要求:

百度查询: 南京中孚信息技术有限公司 一种基于single-pass的文本聚类方法及其装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。