申请/专利权人:中国科学院信息工程研究所
申请日:2021-10-11
公开(公告)日:2024-06-21
公开(公告)号:CN113887642B
主分类号:G06F18/2411
分类号:G06F18/2411;G06F18/2415;G06F18/214;G06N3/045
优先权:
专利状态码:有效-授权
法律状态:2024.06.21#授权;2022.01.21#实质审查的生效;2022.01.04#公开
摘要:本发明涉及一种基于开放世界的网络流量分类方法及系统,其方法包括:步骤S1:构建基于孪生神经网络的SHE‑Net模型,以开放世界网络流量作为样本集,获取样本集的低维特征向量,低维特征向量中含有序列特征向量和空间特征向量;同时,构建互补损失函数训练困难样本;其中,SHE‑Net模型包括:字节编码器、包编码器和流编码器;步骤S2:根据低维特征向量,利用基于阈值和支持向量机的检测器,对开放世界网络流量进行分类和预测。本发明提供的方法构建了双分支三级编码器的SHE‑Net模型,增强网络流量识别的鲁棒性和泛化性,并构建互补损失函数,解决了孪生神经网络的对比损失函数的收敛不稳定的问题。
主权项:1.一种基于开放世界的网络流量分类方法,其特征在于,包括:步骤S1:构建基于孪生神经网络的SHE-Net模型,以开放世界网络流量作为样本集,获取所述样本集的低维特征向量,所述低维特征向量中含有序列特征向量和空间特征向量;同时,构建互补损失函数训练困难样本;其中,所述SHE-Net模型包括:字节编码器、包编码器和流编码器,具体包括:步骤S11:在每一个样本的每个数据包最前端插入一个CLSToken,经过所述字节编码器处理,得到所述数据包的原始嵌入表示,其中,所述字节编码器包括:语义嵌入子层和位置嵌入子层,具体包括:步骤S111:所述语义嵌入子层可获取输入的所述样本中每个字节的语义表示,对于字节b∈[0,261],获取其语义嵌入向量,表示为下述公式1: 1其中,是变换矩阵,将每个字节编码为一个onehot向量,表示字节b经过所述语义嵌入子层得到的d维语义嵌入向量;步骤S112:所述位置嵌入子层可获取输入的所述样本中每个字节的位置关系,对于字节b的d维位置嵌入向量,表示为下述公式2: 2其中,分别是所述样本的偶数和奇数位字节;对于所述样本位置嵌入的每个维度对应于一个正弦曲线,波长以[2π,10000·2π]的形式形成几何级数,对于任何固定偏移量可表示为的线性函数;步骤S113:所述位置嵌入向量与所述语义嵌入向量具有相同的维度d,将二者相加得到每个字节的嵌入表示,从而得到每个数据包的原始嵌入表示;步骤S12:将所述原始嵌入表示经过包编码器处理,得到数据包的序列特征向量;步骤S13:将所述序列特征向量经过流编码器处理,得到数据流的空间特征向量;步骤S14:构建互补损失函数训练困难样本;步骤S2:根据所述低维特征向量,利用基于阈值和支持向量机的检测器,对所述开放世界网络流量进行分类和预测。
全文数据:
权利要求:
百度查询: 中国科学院信息工程研究所 一种基于开放世界的网络流量分类方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。