买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:高从明
摘要:本申请的基于大数据的中文网页个性化精准分类系统,设计了对HTML无用标签的过滤算法,得到较高价值的网页文本内容。在最大顺序匹配分词算法上,采用三字长交集型歧义字段处理,提高了分词过程中的歧义识别能力。改进了基于TF*IDF的权重计算方法,结合CHI计算量计算权重,综合考虑了特征项在某类文本和所有文本中出现次数、类别信息对权重的影响和特征出现位置对权重的影响。实现了中文自动分类模型,设计了中文网页自动分类各个模块的构建方法,有效组织和处理网络上的海量信息,让人们更好的搜索到自己想要的资源,本申请网页自动分类是实现快速信息检索的重要技术,分类准确率达到96.3%,满足个性化网页分类需求。
主权项:1.基于大数据的中文网页个性化精准分类系统,其特征在于,直接对互联网上的海量网页进行分类,网页集按照一定的策略从网络上抓取得到,然后对网页数据进行前置处理,并对前置处理后的文本信息的特征进行筛选,最后用精准分类系统对其进行分类:P1:基于网页中不同标签的特征项对分类的重要程度不同,解析网页的标签结构特征,构建对HTML无用标签的过滤算法,并对高价值的标签集合赋予对应的权值,提取得到对网页分类影响较大的标题、关键词及正文文本;P2:在文本前置处理过程中,改进顺序最优匹配分词算法,结合中文文本特征,采用三字长交集型歧义字段的处理框架,加强算法的歧义识别能力;P3:在特征筛选阶段,基于特征项在类间分布情况和每个类别中的分布情况,融入CHI计算量计算特征项的分布不确定性,采用TF*IDF*CHI权重计算方法,综合考虑特征项在某一类和所有文本中出现的次数、类别信息对特征权重的影响及特征出现位置;P4:构建网页自动分类模型各模块,其中包括:模块1:海量网页数据收集模块:对网页url进行爬取采集,构建网页文本集;模块2:网页数据前置处理模块:抽取网页高价值文本内容,并进行分词和去噪处理;模块3:特征提取模块:对特征进行筛选和提取;模块4:精准分类模块:构造精准分类系统对最终构建的文本向量分类。
全文数据:
权利要求:
百度查询: 高从明 基于大数据的中文网页个性化精准分类系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。