首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于Spark的网络异常流量检测的方法及系统_浪潮云信息技术股份公司_202111359514.2 

申请/专利权人:浪潮云信息技术股份公司

申请日:2021-11-17

公开(公告)日:2024-06-18

公开(公告)号:CN114124509B

主分类号:H04L9/40

分类号:H04L9/40;H04L67/1097;G06F16/14;G06F16/182;G06F16/35;G06F40/216;G06F40/284;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2022.03.18#实质审查的生效;2022.03.01#公开

摘要:本发明公开了基于Spark的网络异常流量检测的方法及系统,属于分布式计算框架Spark及大数据存储框架HDFS技术领域,本发明要解决的技术问题为如何迅速地根据实时记录改变安全策略,减轻运维人员的工作压力,实现更快速地识别出异常攻击识别与分布,采用的技术方案为:该方法是由FlumeNG汇聚节点所收集到的日志数据经过Kafka集群,基于Spark对日志数据进行特征采集分析,并通过训练好的逻辑回归模型进行日志数据识别,最终将SparkStreaming实时计算程序处理结果显示输出给用户。该系统包括定义模块、载入模块、提取模块及获取模块。

主权项:1.一种基于Spark的网络异常流量检测的方法,其特征在于,该方法是由FlumeNG汇聚节点所收集到的日志数据经过Kafka集群,基于Spark对日志数据进行特征采集分析,并通过训练好的逻辑回归模型进行日志数据识别,最终将SparkStreaming实时计算程序处理结果显示输出给用户;具体如下:定义Spark从日志文件中读取当前系统的日志数据访问流程,从Log日志文件中获取到请求总数、访客数、资源流量大小及日志大小的参数,Spark根据实时状态码比例preProcessing获取当前访问的状态码的方法,将访问记录信息进行数据预处理并添加标记;Spark载入处理后的日志数据进行处理,得到ngram序列;具体如下:载入数据集,对数据集添加标记,正常数据标为0,异常数据标为1;将正常数据、异常数据与合并后的数据集转为DataFrame,载入处理后的数据;打散为单字符序列,得到ngram序列;Spark载入数据并通过TF-IDF对数据进行特征提取,在进行哈希词频统计和区分程度估算,使用分类器进行逻辑回归运算,获取到label,feature列,对于已备注label与features标签的数据进行逻辑回归,利用数据集进行训练得到逻辑回归模型;其中,label表示数据的标签,feature表示URL数据中的各个特征;Spark载入数据并通过TF-IDF对数据进行特征提取具体如下:HashingTF与CountVectorizer用于生成词频TF向量;其中,HashingTF是一个特征词集的转换器,将集合转换成固定长度的特征向量;HashingTF利用hashingtrick,原始特征通过应用哈希函数映射到索引中;根据哈希函数映射的索引计算词频;IDFModel获取特征向量并缩放每列;提取URL数据的请求IP、身份统计、时间戳、请求方式及状态码的特征值;加载训练好的逻辑回归模型进行入侵加测,在去空值处理后,带入逻辑回归模型获取处理结果;其中,入侵加测采用SparkMLlib,入侵加测具体为:对于得到的为止URL数据进行特征提取,使用逻辑回归模型将未知数据进行分类,得到逻辑回归模型对于未知数据识别的结果;去空值处理是指对指定的列进行填充;日志数据处理方式包括:①、实时日志数据的处理:日志数据被传输至Kafka消息队列系统中,SparkStreaming实时计算程序通过拉取Kafka中的日志信息进行处理,实时输出日志处理信息,并将处理结果存储至HBase中,用户通过对HBase操作进行日志查询;②、离线日志数据的处理:日志数据被持久化到HDFS中,HDFS中保存的是最近一周的原始日志数据,通过Spark离线分析程序对相应日志进行分析处理,输出处理结果;其中,日志数据存储使用HDFS与Redis;基于Spark对日志数据进行特征采集分析具体如下:用户使用Spark将日志数据中访问记录元数据过滤出来;通过ApacheFlume将实时日志数据进行聚合处理;同时,ApacheFlume获取到当前日志文件的所有内容,并记录每一个文件大小及存储位置;Spark按照ApacheKafka的方法进行日志数据的分发;Spark根据bad_count进行数据特征识别,同时根据bad_count选择合并访问量并将异常访问单独计数;其中,合并小文件的方式包括基于表名和基于路径;Spark根据实时入侵分类计数url_cate_count_timeline方法提供了基于异常IP和异常访问地址两种方式入侵识别计数的功能,并根据url_cate_count_timeline生成异常访问的并集并且生成时间戳,同时根据地理位置与IP地址实时显示在地图中。

全文数据:

权利要求:

百度查询: 浪潮云信息技术股份公司 基于Spark的网络异常流量检测的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。