买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东盛德智能科技股份有限公司
摘要:本发明涉及数据压缩技术领域,尤其涉及一种基于物联网的网站数据自动化爬取方法,该方法通过获取网站中待爬取数据信息并构建二维矩阵,对二维矩阵划分成至少一个子矩阵,获取子矩阵的数据复杂度,根据每个子矩阵的数据复杂度情况对目标子矩阵中的元素进行同化处理,得到目标二维矩阵;利用至少两个预设扫描方式对目标二维矩阵中的元素进行扫描,得到对应的一维数据序列,根据各个序列中的连续相同数据的长度获取扫描最优度,进而获得最优扫描方式,对通过最优扫描方式扫描目标二维矩阵得到对应的可最大化压缩的目标数据序列进行游程编码压缩,通过自动化爬取压缩数据并还原爬取数据得到网站中的数据信息,以达到最大化压缩数据的效果。
主权项:1.一种基于物联网的网站数据自动化爬取方法,其特征在于,所述方法包括:获取网站中待爬取的数据信息,将所述待爬取的数据信息进行进制转换,得到对应数值序列,构建所述数值序列的二维矩阵;将所述二维矩阵划分为至少一个预设尺寸的子矩阵,根据所述二维矩阵和每个所述子矩阵之间的元素差异,分别获取每个所述子矩阵的数据复杂度,根据每个所述子矩阵的数据复杂度,对所述二维矩阵中的元素进行同化操作,得到目标二维矩阵;针对至少两个预设扫描方式中的任一扫描方式,利用所述扫描方式对所述目标二维矩阵中的元素进行扫描,得到对应的一维数据序列,根据所述一维数据序列中的连续相同数据,获取所述扫描方式的扫描最优度,根据每个所述扫描方式的扫描最优度,获取最优扫描方式;利用所述最优扫描方式对所述目标二维矩阵中的元素进行扫描,得到目标数据序列,对所述目标数据序列进行游程编码压缩,得到对应的压缩数据,对自动化爬取所述压缩数据得到的爬取压缩数据进行解压还原得到所述网站中的爬取数据信息。
全文数据:
权利要求:
百度查询: 山东盛德智能科技股份有限公司 基于物联网的网站数据自动化爬取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。