恭喜国网江西省电力有限公司信息通信分公司熊小舟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜国网江西省电力有限公司信息通信分公司申请的专利一种日志异常检测语言模型自监督训练中混合掩码方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119248618B 。
龙图腾网通过国家知识产权局官网在2025-05-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411761577.4,技术领域涉及:G06F11/30;该发明授权一种日志异常检测语言模型自监督训练中混合掩码方法是由熊小舟;褚红亮;严浩然;王晨希;余腾龙;柏杨;汪庆文;邱贞宇;鄂驰;胡潇设计研发完成,并于2024-12-03向国家知识产权局提交的专利申请。
本一种日志异常检测语言模型自监督训练中混合掩码方法在说明书摘要公布了:本发明属于日志异常检测技术领域,公开了一种日志异常检测语言模型自监督训练中混合掩码方法,解析日志数据库形成日志模板库,提取常量单词子序列库和变量单词子序列库;将常量和变量中的长单词拆解,更新常量单词子序列库和变量单词子序列库,构建日志单词库;采用词组词频的方式分析出单词子序列中的高频词组;基于单词、高频词组与子序列对日志文本混合掩码,得到掩码后的单词序列;基于掩码后的单词序列构建Transformer编码器的输入,在Transformer编码器中采用分组查询注意力机制,通过预测被掩盖单词进行BERT模型自监督训练。本发明可更好地训练BERT模型对词组和子序列的理解能力。
本发明授权一种日志异常检测语言模型自监督训练中混合掩码方法在权利要求书中公布了:1.一种日志异常检测语言模型自监督训练中混合掩码方法,其特征在于,包括以下步骤:步骤1:采用日志解析器对日志数据库中的每条日志文本进行统计分析,分析出日志文本中包含的日志模板,形成日志模板库;步骤2:将日志模板库中所有的常量对应的单词组合提取出来形成常量单词子序列库;将所有变量对应的单词组合提取出来,形成变量单词子序列库;步骤3:将常量和变量中的长单词拆解,重新构成单词组合,更新常量单词子序列库和变量单词子序列库,构建日志单词库;步骤4:对常量单词子序列库和变量单词子序列库中的单词子序列进行分词处理,分析单词子序列中包含的高频词组;选择子序列,通过统计连续G个单词出现的频率,当大于阈值时,将连续G个单词构成的词组作为高频词组;步骤5:基于单词、高频词组与子序列对日志文本混合掩码,得到掩码后的单词序列;步骤6:基于掩码后的单词序列构建Transformer编码器的输入,进行BERT模型自监督训练;步骤5中,从训练数据集中取一条日志文本数据与日志模板进行匹配,分析出日志文本中包含的常量单词子序列和变量单词子序列,并对长单词进行拆解,得到子序列集合,该条日志文本数据包含P个子序列,代表第个子序列,,或,为常量单词子序列库,为变量单词子序列库;同时,日志文本数据也按单词进行解析,得到单词序列,该条日志文本数据顺序包含个单词,表示第个位置的单词,,;基于单词、高频词组与子序列对日志文本混合掩码方式过程如下:步骤a:随机选取位置,;步骤b:如果位置的单词及其相邻的单词处在高频词组中,将位置的单词所属的高频词组作为待掩盖单词;步骤c:如果位置的单词及其相邻的单词不处在高频词组中,按50%的概率将位置的单词作为待掩盖单词,另外50%的概率将位置的单词所属的子序列作为待掩盖单词;步骤d:计算待掩盖单词数量MN,如果,则回到步骤a继续随机取出一个位置,如果,则待掩盖单词选取结束;步骤e:针对选取的待掩盖单词,80%的概率直接用[MASK]标记替代原有单词;10%的概率用随机的单词替换原有单词;有10%的概率保持原有单词不变;步骤f:经过混合掩码后,一条日志文本数据的单词序列有三种输出、、,其中MN个单词被[MASK]标记替代后的单词序列,MN个单词被随机单词替代后的单词序列,MN个单词保持原有单词不变后的单词序列;其中为第1个被[MASK]标记替代后的单词,为第MN个被[MASK]标记替代后的单词,为第1个被随机单词替代后的单词,为第MN个被随机单词替代后的单词。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国网江西省电力有限公司信息通信分公司,其通讯地址为:330000 江西省南昌市南昌高新技术产业开发区昌东大道7077号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。