首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】域名生成模型的训练方法、钓鱼网站发现方法及相关装置_鹏城实验室_202410282760.X 

申请/专利权人:鹏城实验室

申请日:2024-03-13

公开(公告)日:2024-06-21

公开(公告)号:CN117892801B

主分类号:G06N3/094

分类号:G06N3/094;G06N3/082;G06N3/0455;G06N3/0475;G06F18/23;G06F18/22;G06F21/56

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.05.03#实质审查的生效;2024.04.16#公开

摘要:本申请实施例提供了域名生成模型的训练方法、钓鱼网站发现方法及相关装置,训练方法包括:对钓鱼网站域名的顶级域名和次级域名的字符匹配编号,生成域名向量;提取域名向量的语义特征;根据顶级域名和次级域名的字符聚类得到共性特征;通过生成对抗网络根据目标域名向量、域名语义特征向量和共性特征训练,通过共性特征指导生成器根据目标域名向量和域名语义特征向量生成潜在钓鱼网站域名;结合域名相似度和域名语义特征向量提供可靠的先验知识;通过聚类得到涵盖真实钓鱼网站域名在结构、语法和语义上的相似性的共性特征,利用共性特征引导生成对抗网络生成类似的域名,具有检测范围广、时效性强、实用性强的优点。

主权项:1.一种域名生成模型的训练方法,其特征在于,包括:获取钓鱼网站域名;对所述钓鱼网站域名的顶级域名和由所述钓鱼网站域名的次级域名分割得到的字符匹配编号,生成域名向量;对所述域名向量进行语义特征提取,得到域名语义特征向量;根据所述钓鱼网站域名的顶级域名和次级域名的字符进行聚类,得到共性特征;通过所述域名生成模型的生成对抗网络从所述域名向量中选择出目标域名向量,根据所述目标域名向量、所述域名语义特征向量和所述共性特征进行生成对抗训练,得到训练后的域名生成模型;其中,在所述生成对抗训练的过程中,通过所述共性特征指导所述生成对抗网络的生成器根据所述目标域名向量和所述域名语义特征向量生成潜在钓鱼网站域名;所述根据所述钓鱼网站域名的顶级域名和次级域名的字符进行聚类,得到共性特征,包括:对所述顶级域名提取特征得到顶级域名特征向量,根据所述次级域名的字符提取特征得到次级域名特征向量,组合所述顶级域名特征向量和所述次级域名特征向量得到域名特征向量;根据所述域名特征向量进行聚类,得到共性特征;所述对所述顶级域名提取特征得到顶级域名特征向量,包括:将所述顶级域名依次排列形成顶级域名序列;从所述顶级域名中选择目标顶级域名,将所述顶级域名序列对应所述目标顶级域名的字符转换为1,将所述顶级域名序列不对应所述目标顶级域名的字符转换为0,得到长度为顶级域名总数量的二进制向量,将所述二进制向量作为所述目标顶级域名的顶级域名特征向量;根据所述次级域名的字符提取特征得到次级域名特征向量,包括:获取预设字符子串长度和预设频率阈值;统计所述次级域名的字符串中长度为预设字符子串长度的字符子串的频率;将所述频率大于所述预设频率阈值且长度为预设字符子串长度的字符子串构成子串列表;从所述次级域名中选择目标次级域名,将所述目标次级域名中出现子串列表中的字符子串的位置确定为目标次级域名位置,将所述目标次级域名位置对应的向量分量的值设置为子串列表中的字符子串的频率,以构建得到所述目标次级域名的次级域名特征向量,其中,所述次级域名特征向量的长度为子串列表中的字符子串的总数量;所述根据所述域名特征向量进行聚类,得到共性特征,包括:从所述域名特征向量中选择第一聚类中心;计算得到所述域名特征向量与所述第一聚类中心的最短距离;根据所述最短距离计算所述域名特征向量的概率;按照所述概率根据所述域名特征向量构建候选聚类中心集合;根据所述域名特征向量的概率、所述第一聚类中心的数量和所述域名特征向量的总数量得到所述域名特征向量的采样权重;根据所述采样权重从所述候选聚类中心集合选择初始聚类中心;根据所述初始聚类中心对所述域名特征向量进行聚类,得到共性特征。

全文数据:

权利要求:

百度查询: 鹏城实验室 域名生成模型的训练方法、钓鱼网站发现方法及相关装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。