基于大数据的中文网页个性化精准分类系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：高从明

摘要：本申请的基于大数据的中文网页个性化精准分类系统，设计了对HTML无用标签的过滤算法，得到较高价值的网页文本内容。在最大顺序匹配分词算法上，采用三字长交集型歧义字段处理，提高了分词过程中的歧义识别能力。改进了基于TF*IDF的权重计算方法，结合CHI计算量计算权重，综合考虑了特征项在某类文本和所有文本中出现次数、类别信息对权重的影响和特征出现位置对权重的影响。实现了中文自动分类模型，设计了中文网页自动分类各个模块的构建方法，有效组织和处理网络上的海量信息，让人们更好的搜索到自己想要的资源，本申请网页自动分类是实现快速信息检索的重要技术，分类准确率达到96.3％,满足个性化网页分类需求。

主权项：1.基于大数据的中文网页个性化精准分类系统，其特征在于，直接对互联网上的海量网页进行分类,网页集按照一定的策略从网络上抓取得到,然后对网页数据进行前置处理,并对前置处理后的文本信息的特征进行筛选,最后用精准分类系统对其进行分类：P1：基于网页中不同标签的特征项对分类的重要程度不同，解析网页的标签结构特征，构建对HTML无用标签的过滤算法，并对高价值的标签集合赋予对应的权值，提取得到对网页分类影响较大的标题、关键词及正文文本；P2：在文本前置处理过程中，改进顺序最优匹配分词算法，结合中文文本特征，采用三字长交集型歧义字段的处理框架，加强算法的歧义识别能力；P3：在特征筛选阶段，基于特征项在类间分布情况和每个类别中的分布情况,融入CHI计算量计算特征项的分布不确定性，采用TF*IDF*CHI权重计算方法，综合考虑特征项在某一类和所有文本中出现的次数、类别信息对特征权重的影响及特征出现位置；P4：构建网页自动分类模型各模块，其中包括：模块1：海量网页数据收集模块：对网页url进行爬取采集，构建网页文本集；模块2：网页数据前置处理模块：抽取网页高价值文本内容，并进行分词和去噪处理；模块3：特征提取模块：对特征进行筛选和提取；模块4：精准分类模块：构造精准分类系统对最终构建的文本向量分类。

全文数据：

权利要求：

百度查询：高从明基于大数据的中文网页个性化精准分类系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种新型动盖板

下一篇：一种气动切管机的夹紧装置

相关技术

一种新型动盖板

一种气动切管机的夹紧装置

一种电加热结构及带有该电加热结构的家用电器

一种实验动物饲养笼具用进食系统

一种建筑工程用分筛机

一种降低转向节磕碰伤的模具

一种双层式并线机构

一种新式施工围挡

一种可控流量的自动倒袋装置

液体加热器具

一种分捡操作设备

一种冷藏箱

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于大数据的中文网页个性化精准分类系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务