首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度学习技术的敏感信息识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:闪捷信息科技有限公司

摘要:本发明提供一种基于深度学习技术的敏感信息识别方法,涉及数据识别技术领域,包括以下步骤:获取训练数据集;分别对图像数据、全中文数据集和非全中文数据集训练得到第一、第二和第三分类模型;接受待预测的数据;分别根据待预测的数据的类型输入至第一、第二和第三分类模型,得到标签;获取所有标签,对结构化数据,则统计每个字段下实例标签最多的类别作为该字段的类别;对非结构化数据,则将中文分词字符的类别进行敏感信息统计。本发明合理有效,可以通过对原始数据进行特征工程,将数据集输入到对应的分类模型进行训练,得到不同的分类模型,根据待识别的敏感数据类型得到分类标签,对不同类型的数据进行识别,识别准确率高,保护性好。

主权项:1.一种基于深度学习技术的敏感信息识别方法,其特征在于,包括以下步骤:S1:获取训练数据集;S2:判断训练数据集是否为图像数据,若是则使用深度学习模型进行训练,得到第一分类模型,并执行步骤S4;反之则执行步骤S3;S3:判断训练数据集是否为全中文数据集,若是则使用深度学习模型进行训练,得到第二分类模型,并执行步骤S4;反之则使用机器学习模型进行训练,得到第三分类模型,并执行步骤S4;S4:接收待预测的数据;S5:判断待预测的数据是否为图像数据,若是,则将待预测的数据输入至第一分类模型,将分类结果作为图像的标签;反之则执行步骤S6;S6:判断待预测的数据是否为结构化数据;若是则将每个字段的实例进行提取,执行步骤S7;反之则提取非结构化字符,进行中文分词,执行步骤S7;S7:判断获取的字段实例或者中文分词是否为全中文数据;若是则将字段实例或者中文分词输入至第二分类模型,得到所有字段实例或者中文分词的标签;反之则将字段实例或者中文分词输入至第三分类模型,得到所有字段实例或者中文分词的标签;S8:获取所有标签,若待预测的数据为图像数据,将每一张图像的分类结果作为该图像的标签,并判断其是否为敏感图像信息;若待预测的数据为结构化数据,则统计每个字段下实例标签最多的类别作为该字段的类别,并判断其是否为敏感字段信息;若待预测的数据为非结构化数据,则将中文分词字符的类别进行敏感信息统计,并判断其是否为敏感字符信息;执行步骤S2时,对图像数据的训练步骤具体包括:S21:对图像进行增广;S22:将图像变换到同样的大小,并进行归一化处理;S23:将处理好的图像输入到resnet模型进行训练,得到第一分类模型;执行步骤S3时,对全中文数据集的训练步骤具体包括:S311:将数据集处理成字段内容和标签两列;S312:根据字符编码字典,将字段内容转换为向量,并把标签进行独热编码;S313:将处理好的数据送到bert模型中进行训练,得到第二分类模型;执行步骤S3时,对非全中文数据集的训练步骤具体包括:S321:提取非中文数据集的自定义特征;S322:对特征进行预处理,包括归一化和分箱;S323:将处理好的数据输入到随机森林中进行训练,得到第三分类模型。

全文数据:

权利要求:

百度查询: 闪捷信息科技有限公司 一种基于深度学习技术的敏感信息识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。