一种基于大语言模型的恶意域名检测方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：合肥城市云数据中心股份有限公司

摘要：本发明涉及一种基于大语言模型的恶意域名检测方法，与现有技术相比解决了难以针对恶意域名进行检测的缺陷。本发明包括以下步骤：预训练数据集和微调训练数据集的构建；设定URL‑BERT模型；URL‑BERT模型的预训练；URL‑BERT模型的微调；待检测域名的获得；恶意域名检测结果的获得。本发明采用了大语言模型BERT来处理恶意域名，利用大语言模型强大的语义理解能力，可以更好地捕捉域名中的隐含信息和语境，提高恶意域名的识别准确性。

主权项：1.一种基于大语言模型的恶意域名检测方法，其特征在于，包括以下步骤：11）预训练数据集和微调训练数据集的构建：构建预训练数据集和微调训练数据集，并进行数据预处理；12）设定URL-BERT模型；所述设定URL-BERT模型包括以下步骤：121）设定URL-BERT模型包括输入层、URL-BERT预训练层、字符级嵌入特征提取层、标记级别嵌入特征提取层、特征融合层和全连接分类层；设定输入层：输入层接收分词处理后的文本作为模型的输入；122）设定URL-BERT预训练层：预训练阶段通过设定MLM任务，对大量的无标记域名数据进行训练，学习捕获域名文本中的丰富语义信息和结构特征；123）设定字符级嵌入特征提取层：字符级嵌入提取层提取域名文本的字符级别嵌入，利用BiGRU生成双向的向量表示，其中包含了域名内部字符间的复杂关联信息；对微调训练数据集，利用双向门控单元BiGRU对有标记域名数据进行字符级别的嵌入提取，BiGRU通过利用两个不同方向的GRU，在前向和后向方向上结合隐藏层状态，从而实现双向信息的整合，得到域名字符级别的嵌入向量；124）设定标记级别嵌入特征提取层，进行标记级别嵌入；125）设定特征融合层：特征融合层将提取的字符级别嵌入特征向量和标记级别嵌入特征向量进行拼接，然后引入多个Transformer层来捕获特征之间的复杂关系；在Transformer层之间的异构交互模块，用于将字符级嵌入和标记级嵌入在每个Transformer层之后进行组合和分离，组合操作丰富了不同表示之间的关联性，分离操作保留了字符级和标记级特征的独立性，促进了模型在双通道区分方面的表现；126）设定全连接分类层：全连接分类层用于微调整个URL-BERT模型以适应特定的恶意域名检测任务，通过将特征融合层输出的特征向量输入到全连接层中，通过反向传播算法最小化损失函数；13）URL-BERT模型的预训练：利用预训练数据集对URL-BERT模型进行预训练；所述URL-BERT模型的预训练包括以下步骤：131）将预训练数据集分词处理后的文本输入URL-BERT模型；132）URL-BERT预训练层进行MaskedLanguageModel预训练，即MLM预训练：设是随机用[MASK]替换中的一小部分token的分词序列，中有15%的token被随机进行[MASK]，其中表示第i个token被随机替换，MLM预训练过程的目标是根据上下文来预测被[MASK]的token的内容；将输入到URL-BERT模型中，所对应的隐层向量，由经过BERT的编码器编码得到；1321）编码器处理过程：编码输入层的输入数据是嵌入向量；1322）自注意力机制：输入通过线性变换得到查询矩阵、键矩阵K和值矩阵，其中,,是编码器的超参数：，，，然后计算注意力权重，使用缩放点积注意力，这一步产生的输出包含对输入序列内部的全局依赖关系的表示，其中是键向量的维度，用于缩放点积，防止出现梯度消失问题，是注意力权重矩阵，是一个注意力头的输出，，多头注意力的输出：将多个头的输出拼接起来，然后通过另一个线性变换，公式如下，，其中，是第个头的输出，是一个超参数矩阵；1323）前馈神经网络：对于多头注意力的输出用一个前馈神经网络进一步处理特征表示，前馈网络由两个线性层和一个激活函数组成，，其中、、、是可学习的参数；接着进行残差连接和层归一化，用于增强模型的训练稳定性和收敛速度：，这里表示层归一化操作；编码器输出层：最终输出编码器的编码序列；接着，经过Sigmoid操作得到对应的token分布；MLM过程的公式如下，，其中表示目标概率分布，即整个序列的概率分布，表示给定序列所有token的情况下，第i个token的预测概率,表示模型参数，表示第i个token是否被[MASK]，如果第i个token被[MASK]，则，否则，目的是对被[MASK]的token进行加权，被[MASK]的token对整个序列的概率产生影响；在MLM预训练中，目标是最大化模型对整个序列的预测准确率，基于这一预测，计算交叉熵损失函数，并通过反向传播算法更新模型参数，最终得到预训练好的模型，，其中，是模型参数，是交叉熵损失函数，是第i个token的真实标签，如果该token被[MASK]即该token的真实值，是第i个token的预测概率，即通过反向传播算法最小化损失函数更新模型参数，最终得到预训练好的URL-BERT模型M；14）URL-BERT模型的微调：利用微调训练数据集对预训练后的URL-BERT模型进行微调；15）待检测域名的获得：获得待检测的域名；16）恶意域名检测结果的获得：将待检测的域名输入微调后的URL-BERT模型，获得恶意域名检测结果。

全文数据：

权利要求：

百度查询：合肥城市云数据中心股份有限公司一种基于大语言模型的恶意域名检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：单电池气密流阻测试工装结构

下一篇：柔性石墨烯霍尔传感器及其制备方法

相关技术

单电池气密流阻测试工装结构

柔性石墨烯霍尔传感器及其制备方法

一种家具耐用性综合测试平台及其测试方法

一种铝基制冷散热片及其制备方法

一种1,2,3-三氮唑-4-甲酸乙酯的合成方法

一种高速机械磨削主轴加工装置

一种高效的柔性钙钛矿太阳能电池封装方法

一种页面构建方法和系统

通信方法、装置、存储介质及程序产品

一种变电站无人机巡视路径规划方法及系统

恒湿机

包含月桂酸甘油三酯的非乳制奶精组合物及其制备方法

检测相关技术

检测装置及检测方法_富泰华工业(深圳)有限公司_202410687171.X

检测系统及基于检测系统的检测方法_深圳中科飞测科技股份有限公司_201910892691.3

电源装置的检测方法、检测装置以及检测系统_公牛集团股份有限公司_202111277648.X

针头变形检测装置及检测方法_常州铭赛机器人科技股份有限公司_202410650688.1

检测用工具及检测方法_株式会社森田制作所_202110524522.1

光检测设备和光检测系统_佳能株式会社_201910902187.7

检测装置_睿生光电股份有限公司_202310212269.5

检测装置_精工爱普生株式会社_202410258982.8

检测装置_鸿富锦精密电子(成都)有限公司_202410642212.3

检测装置_精工爱普生株式会社_202410260515.9

模型相关技术

生物教学用大脑模型_章嘉懿_202323663194.7

模型评估方法及装置_中国电信股份有限公司_202410896650.2

数据生成模型获取方法_珠海金山数字网络科技有限公司_202410682552.9

一种风险模型中多标签模型的处理方法_河南中原消费金融股份有限公司_202411079805.X

一种珠宝自动检测模型的建模方法、模型及检测方法_河北地质大学_202410804913.2

大语言模型和小语言模型协同的民生诉求事件分拨方法_中电万维信息技术有限责任公司_202410774675.5

一种基于大模型的债务人画像分析处理方法与模型_杭州度言软件有限公司_202410871597.0

一种模型训练方法、海底地形预测方法及模型训练装置_广州海洋地质调查局_202410589025.3

岩土信息模型的建立方法_华中科技大学_202410676259.1

一种模拟道路模型_彰武县自然资源事务服务中心(彰武县土地储备中心)_202420015907.4

域名相关技术

域名解析请求的处理方法、装置、设备、介质和程序产品_北京字节跳动网络技术有限公司_202210437194.6

基于元学习的小样本恶意域名检测方法及装置_中国科学院信息工程研究所_202310221375.X

一种基于载荷自动生成的域名系统安全测试方法_中国人民解放军国防科技大学_202411068317.9

域名的解析方法、装置、电子设备及可读存储介质_郑州浪潮数据技术有限公司_202410892313.6

一种域名解析方法、装置和设备_中国电信股份有限公司_202410890052.4

一种基于大语言模型的恶意域名检测方法_合肥城市云数据中心股份有限公司_202410875232.5

一种域名分类器检测方法、装置、设备及存储介质_中国移动通信有限公司研究院_202011159624.X

一种域名系统数据处理方法、电子设备及存储介质_济南浪潮数据技术有限公司_202410832825.3

ACME域名自动验证方法、系统、设备及存储介质_亚数信息科技(上海)有限公司_202410852245.0

命令和控制C&C域名的验证方法、装置及电子设备_中国移动通信有限公司研究院_202011429638.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于大语言模型的恶意域名检测方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务