买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:骆国明
摘要:本申请的搜索引擎增量大数据更新信息降噪分类方法,针对传统大数据分类方法中存在的准确率过低和效率较低的两个问题,构建了一种基于信息降噪和增量学习的大数据分类方法,创造性的将信息降噪作为预处理的步骤加入大数据分类之前,提升大数据分类的准确率,并且创造性的提出基于大数据对比的信息降噪方法,减少网页噪声对大数据分类的干扰影响,提高分类方法的准确率,实验结果表明该分类方法的准确率提高了18%。同时,针对信息降噪及增量学习方法带来的计算量过大的问题,分析方法中训练样本直接参与的计算彼此具有独立性,采用增量遴选更新加速的手段,在四进程加速下分类方法效率提高了55%,数据分类精度和速度都有大幅提高。
主权项:1.搜索引擎增量大数据更新信息降噪分类方法,其特征在于,构建基于规律解析的增量更新策略,基于网页噪声和主题部分组成特点,在进行大数据分类之前,将信息降噪融入其中,利用样本与样本之间的独立性特征,将涉及样本的计算增量遴选更新化处理,基于数据降噪和增量学习对信息分类;针对增量采集系统中存在的更新时间准确率低问题,本申请构建基于规律解析的网络流量增量更新策略,基于以日为周期的规律性变化模型,采用最小二乘法多项式曲线拟合进行数学建模,并将其应用在索引页面的增量更新之上,预测索引页面下一次更新的时间间隔,实现搜索引擎爬虫增量更新索引页面;针对大数据分类方法准确率偏低及效率偏低问题,本申请构建基于信息降噪和增量学习的索引页面分类方法,在索引页面分类中改进融入信息降噪,并且基于网页噪声内容和主题内容组成特点及同层级网页之间存在的对应关系,建立基于大数据对比的信息降噪方法,在对一个网页进行去噪之前,寻找到该网页中属于同一级别的另一网页,通过对这两个网页进行对比分析,剔除公有的噪声部分,实现信息降噪,减少网页噪声对大数据分类的干扰影响,基于训练样本直接参与的计算彼此具有独立性的特性,采用增量遴选更新加速对方法进行改进,提高信息分类效率。
全文数据:
权利要求:
百度查询: 骆国明 搜索引擎增量大数据更新信息降噪分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。