首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于领域泛化的网络钓鱼URL检测方法及系统 

申请/专利权人:东南大学

申请日:2024-04-12

公开(公告)日:2024-06-28

公开(公告)号:CN118264477A

主分类号:H04L9/40

分类号:H04L9/40

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本发明公开了一种基于领域泛化的网络钓鱼URL检测方法及系统,首先对URL字符串进行编码,得到URL数字向量;再应用两种数据生成技术生成良性URL和钓鱼URL,提高训练集的多样性;接着使用Encoder网络构建预训练模型,利用预训练模型学习良性URL字符间的语义关系,生成通用的URL嵌入;最后使用扩充后的数据集,对预训练模型进行微调,构建具有强大泛化能力钓鱼URL检测模型,实现网络钓鱼URL的检测。本发明方法能够实现对钓鱼URL的持久有效检测,即便当钓鱼URL特征分布发生显著变化时,模型的检测准确率依旧很高。

主权项:1.一种基于领域泛化的网络钓鱼URL检测方法,其特征在于,包括如下步骤:S1,URL编码:采集用于模型训练的数据集,所述数据集包括良性URL和钓鱼URL,并对URL字符串进行编码,得到URL数字向量;S2,数据生成:对良性URL数据集进行数据增强,并将经过步骤S1编码后的良性URL数字向量训练基于生成对抗网络的钓鱼URL生成模型,生成钓鱼URL;所述基于生成对抗网络的钓鱼URL生成模型通过在WGAN-GP整体架构中训练钓鱼URL生成器模型而生成,WGAN-GP中生成器的输入是随机向量,随机向量经过转置卷积层和Gumbel-softmax层后变成钓鱼URL数字向量,鉴别器的输入是生成器输出的钓鱼URL数字向量和经过步骤S1编码后的良性URL数字向量,经过卷积层和全连接线性层后输出评分;S3,模型预训练:使用编码的良性URL数据集训练基于Encoder网络的预训练模型,为随机遮掩良性URL数字向量的部分位置,构建Encoder网络学习良性URL字符间的语义关系,预测被遮掩位置的值,更新URL嵌入向量,生成通用的URL嵌入;S4:钓鱼URL检测:将步骤S1编码后的原始URL数据集和步骤S2生成的URL数据集组成数据集,划分为训练集和测试集,使用训练集对步骤S2训练好的预训练模型进行调整后进行模型训练,得到网络钓鱼URL检测模型,使用测试集训练网络钓鱼URL检测模型,将测试集输入到网络钓鱼URL检测模型,实现钓鱼URL的检测。

全文数据:

权利要求:

百度查询: 东南大学 一种基于领域泛化的网络钓鱼URL检测方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。