首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于分析Http请求的网络爬虫快速识别装置_北京亚鸿世纪科技发展有限公司_202111178557.0 

申请/专利权人:北京亚鸿世纪科技发展有限公司

申请日:2021-10-10

公开(公告)日:2024-05-17

公开(公告)号:CN113806614B

主分类号:G06F16/951

分类号:G06F16/951;G06F16/955;G06F16/957;G06F16/958

优先权:

专利状态码:有效-授权

法律状态:2024.05.17#授权;2022.01.04#实质审查的生效;2021.12.17#公开

摘要:一种基于分析Http请求的网络爬虫快速识别装置涉及信息技术领域,本发明由关键页面设定器、访问请求捕捉器、流计算引擎模块和爬虫判定器组成;流计算引擎模块由单位时间设定器、每IP权重访问量统计器、每IP总访问量统计器、每IP关键页面总访问量统计器、每IP使用浏览器种类总量统计器、每IP低于最小时间间隔访问次数统计器和每IP查询不同行程的次数统计器组成;本发明可以实时判断网络爬虫,有助于实时采取阻断措施。

主权项:1.一种基于分析Http请求的网络爬虫快速识别装置,其特征在于由关键页面设定器、访问请求捕捉器、流计算引擎模块和爬虫判定器组成;流计算引擎模块由单位时间设定器、每IP权重访问量统计器、每IP总访问量统计器、每IP关键页面总访问量统计器、每IP使用浏览器种类总量统计器、每IP低于最小时间间隔访问次数统计器和每IP查询不同行程的次数统计器组成;关键页面设定器负责标记网站的关键页面,并在关键页面根据活动控件元素带有唯一标识的特点进行自动埋点,埋点的过程是在关键页面的活动控件元素处添加引用采集脚本的script脚本来实现;访问请求捕捉器用来生成采集脚本,采集脚本用来采集http请求,并且将http请求数据传送目标设定为访问请求捕捉器;访问请求捕捉器解析http请求,得到该http请求的请求时间,URL地址,请求参数,源IP,访问用的浏览器种类;访问请求捕捉器把解析http请求得到的数据封装成一个字符串,通过Kafka发送给流计算引擎模块;流计算引擎模块由Spark对数据进行流式处理;由流式处理API编辑构成单位时间设定器、每IP权重访问量统计器、每IP总访问量统计器、每IP关键页面总访问量统计器、每IP使用浏览器种类总量统计器、每IP低于最小时间间隔访问次数统计器和每IP查询不同行程的次数统计器;单位时间设定器设定进行网络爬虫快速识别时所采用的时间段的长度,命名为单位时间,默认的单位时间为1分钟;每IP权重访问量统计器用来列举单位时间一个源IP访问不同目的的访问量,并将一个源IP访问不同目的的访问量中的前两位访问量相加,得到每IP权重访问量;每IP权重访问量统计器设定每IP权重访问量的阈值为100,权重为0.2;当每IP权重访问量大于阈值时,每IP权重访问量统计器将每IP权重访问量乘以0.2发送给爬虫判定器;每IP总访问量统计器用来统计单位时间一个源IP所有的访问量之和,得到每IP总访问量;每IP总访问量统计器设定每IP总访问量的阈值为80,权重为0.2;当每IP总访问量大于阈值时,每IP总访问量统计器将每IP总访问量乘以0.2发送给爬虫判定器;每IP关键页面总访问量统计器用来统计单位时间一个源IP访问所有关键页面的访问量之和,得到每IP关键页面总访问量;每IP关键页面总访问量统计器设定每IP关键页面总访问量的阈值为50,权重为0.2;当每IP关键页面总访问量大于阈值时,每IP关键页面总访问量统计器将每IP关键页面总访问量乘以0.2发送给爬虫判定器;每IP使用浏览器种类总量统计器用来统计单位时间一个源IP使用的浏览器种类,得到每IP使用浏览器种类总量;每IP使用浏览器种类总量统计器设定每IP使用浏览器种类总量的阈值为3,权重为0.1;当每IP使用浏览器种类总量大于阈值时,每IP使用浏览器种类总量统计器将每IP使用浏览器种类总量乘以0.1发送给爬虫判定器;每IP低于最小时间间隔访问次数统计器设定最小时间间隔为3秒,每IP低于最小时间间隔访问次数统计器用来统计单位时间同一源IP对外发起http请求的间隔时间小于最小时间间隔的所有http请求,得到每IP低于最小时间间隔访问次数;每IP低于最小时间间隔访问次数统计器设定每IP低于最小时间间隔访问次数的阈值为25,权重为0.2;当每IP低于最小时间间隔访问次数大于阈值时,每IP低于最小时间间隔访问次数统计器将每IP低于最小时间间隔访问次数乘以0.2发送给爬虫判定器;每IP查询不同行程的次数统计器用来统计单位时间一个源IP进行不同行程查询的总次数,得到每IP查询不同行程的次数;每IP查询不同行程的次数对于没有行程规划的网站没有意义;每IP查询不同行程的次数统计器设定每IP查询不同行程的次数的阈值为12,权重为0.1;当每IP查询不同行程的次数大于阈值时,每IP查询不同行程的次数统计器将每IP查询不同行程的次数乘以0.1发送给爬虫判定器;爬虫判定器根据综合评分决定源IP是否为爬虫所在IP,当综合评分大于0.6则判定源IP为爬虫所在IP;综合评分=将每IP权重访问量乘以0.2+每IP总访问量乘以0.2+每IP关键页面总访问量乘以0.2+每IP使用浏览器种类总量乘以0.1+每IP低于最小时间间隔访问次数乘以0.2+每IP查询不同行程的次数乘以0.1。

全文数据:

权利要求:

百度查询: 北京亚鸿世纪科技发展有限公司 一种基于分析Http请求的网络爬虫快速识别装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术