基于Spark的网络异常流量检测的方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浪潮云信息技术股份公司

摘要：本发明公开了基于Spark的网络异常流量检测的方法及系统，属于分布式计算框架Spark及大数据存储框架HDFS技术领域，本发明要解决的技术问题为如何迅速地根据实时记录改变安全策略，减轻运维人员的工作压力，实现更快速地识别出异常攻击识别与分布，采用的技术方案为：该方法是由FlumeNG汇聚节点所收集到的日志数据经过Kafka集群，基于Spark对日志数据进行特征采集分析，并通过训练好的逻辑回归模型进行日志数据识别，最终将SparkStreaming实时计算程序处理结果显示输出给用户。该系统包括定义模块、载入模块、提取模块及获取模块。

主权项：1.一种基于Spark的网络异常流量检测的方法，其特征在于，该方法是由FlumeNG汇聚节点所收集到的日志数据经过Kafka集群，基于Spark对日志数据进行特征采集分析，并通过训练好的逻辑回归模型进行日志数据识别，最终将SparkStreaming实时计算程序处理结果显示输出给用户；具体如下：定义Spark从日志文件中读取当前系统的日志数据访问流程，从Log日志文件中获取到请求总数、访客数、资源流量大小及日志大小的参数，Spark根据实时状态码比例preProcessing获取当前访问的状态码的方法，将访问记录信息进行数据预处理并添加标记；Spark载入处理后的日志数据进行处理，得到ngram序列；具体如下：载入数据集，对数据集添加标记，正常数据标为0，异常数据标为1；将正常数据、异常数据与合并后的数据集转为DataFrame，载入处理后的数据；打散为单字符序列，得到ngram序列；Spark载入数据并通过TF-IDF对数据进行特征提取，在进行哈希词频统计和区分程度估算，使用分类器进行逻辑回归运算，获取到label,feature列，对于已备注label与features标签的数据进行逻辑回归，利用数据集进行训练得到逻辑回归模型；其中，label表示数据的标签，feature表示URL数据中的各个特征；Spark载入数据并通过TF-IDF对数据进行特征提取具体如下：HashingTF与CountVectorizer用于生成词频TF向量；其中，HashingTF是一个特征词集的转换器，将集合转换成固定长度的特征向量；HashingTF利用hashingtrick，原始特征通过应用哈希函数映射到索引中；根据哈希函数映射的索引计算词频；IDFModel获取特征向量并缩放每列；提取URL数据的请求IP、身份统计、时间戳、请求方式及状态码的特征值；加载训练好的逻辑回归模型进行入侵加测，在去空值处理后，带入逻辑回归模型获取处理结果；其中，入侵加测采用SparkMLlib，入侵加测具体为：对于得到的为止URL数据进行特征提取，使用逻辑回归模型将未知数据进行分类，得到逻辑回归模型对于未知数据识别的结果；去空值处理是指对指定的列进行填充；日志数据处理方式包括：①、实时日志数据的处理：日志数据被传输至Kafka消息队列系统中,SparkStreaming实时计算程序通过拉取Kafka中的日志信息进行处理，实时输出日志处理信息,并将处理结果存储至HBase中，用户通过对HBase操作进行日志查询；②、离线日志数据的处理：日志数据被持久化到HDFS中,HDFS中保存的是最近一周的原始日志数据,通过Spark离线分析程序对相应日志进行分析处理,输出处理结果；其中，日志数据存储使用HDFS与Redis；基于Spark对日志数据进行特征采集分析具体如下：用户使用Spark将日志数据中访问记录元数据过滤出来；通过ApacheFlume将实时日志数据进行聚合处理；同时，ApacheFlume获取到当前日志文件的所有内容，并记录每一个文件大小及存储位置；Spark按照ApacheKafka的方法进行日志数据的分发；Spark根据bad_count进行数据特征识别，同时根据bad_count选择合并访问量并将异常访问单独计数；其中，合并小文件的方式包括基于表名和基于路径；Spark根据实时入侵分类计数url_cate_count_timeline方法提供了基于异常IP和异常访问地址两种方式入侵识别计数的功能，并根据url_cate_count_timeline生成异常访问的并集并且生成时间戳，同时根据地理位置与IP地址实时显示在地图中。

全文数据：

权利要求：

百度查询：浪潮云信息技术股份公司基于Spark的网络异常流量检测的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种冷藏箱

下一篇：一种扫描相机用可调节支架

相关技术

一种冷藏箱

一种扫描相机用可调节支架

一种框架式前防撞系统

片烟运输线用电梯按键装置

一种多功能料理机

一种防螨枕头

一种便于控制的超音速喷涂装置

一种基于安防的侦查型无人机

一种大理石草酸抛光磨块

一种便于收放的无人机脚架

一种可自动模块化管理的全方位监测装置

一种环保地板基材切割装置

流量相关技术

流量脉动发生器_北京航空航天大学_202411241651.X

气体流量表保护装置_上海外高桥造船有限公司_202411158758.8

一种流量计_玉环腾轩塑料包装有限公司_202420611161.3

一种可控流量的移液器_苏州爱特嘉精密模具有限公司_202420475959.X

基于分段非线性拟合的液体热式质量流量计流量估计方法_上海电机学院_202410912781.5

明渠流量计液位比对校准装置_山东东特环境检测技术有限公司_202420023658.3

一种流量计组装线_曹剑锋_202420179401.7

一种高流量鼻氧管_浙江康德药业集团股份有限公司_202310444971.4

一种涡轮流量计_上海芯绒科技有限公司_202420644598.7

一种流量校验装置的校验平台_河南中溯检测科技有限公司_202323598618.6

异常相关技术

图像异常检测方法、图像异常检测模型训练方法及装置_中国联合网络通信集团有限公司_202310443654.0

轨道异常监测方法、智慧声纹采集设备终端及轨道异常监测系统_北京谛声科技有限责任公司_202410648362.5

铁路货车异常检测方法及系统_北京交通大学_202411005735.3

通信异常处理方法及相关装置_OPPO广东移动通信有限公司_202210532960.7

显微镜成像图像异常检测模型训练及异常检测方法、装置、设备及存储介质_珠海横琴圣澳云智科技有限公司_202410859284.3

基于异常数据的大数据存储方法_江西孺智信息技术有限公司_202411081304.5

一种DR胸片异常分类方法及系统_南充市中心医院_202411012768.0

数据异常检测方法、装置及存储介质_东方晶源微电子科技(北京)股份有限公司_202410889410.X

一种电网过流异常检测方法_国网宁夏电力有限公司营销服务中心(国网宁夏电力有限公司计量中心)_202411061865.9

基于LOF异常检测的HC专递方法及系统_武汉智品堂科技有限公司_202410959224.9

检测相关技术

检测装置及检测系统_甘肃瓜州宝丰硅材料开发有限公司_202420225891.X

检测放大电路及光检测设备_武汉万集光电技术有限公司_202323635513.3

按压检测装置以及按压检测方法_阿尔派株式会社_202011409692.7

位置检测装置及位置检测方法_株式会社和冠_202410835696.3

负载检测电路及检测方法_思瑞浦微电子科技(上海)有限责任公司_202411020132.0

光检测装置及光检测系统_松下知识产权经营株式会社_202410824199.3

厚度检测装置及厚度检测方法_宁德时代新能源科技股份有限公司_202310449357.7

检测设备_同方威视技术股份有限公司_202323567977.5

物镜检测装置及其检测方法、显微镜_杭州海康威视数字技术股份有限公司_202410373298.4

泡棉检测工装及泡棉检测系统_恩邦科技(武汉)有限公司_202322980581.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于Spark的网络异常流量检测的方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务