买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种针对敏感数据的脱敏处理方法_浙江图盛输变电工程有限公司温州科技分公司_202110886512.2 

申请/专利权人:浙江图盛输变电工程有限公司温州科技分公司

申请日:2021-08-03

公开(公告)日:2024-04-26

公开(公告)号:CN113591150B

主分类号:G06F21/62

分类号:G06F21/62;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2021.11.19#实质审查的生效;2021.11.02#公开

摘要:本发明公开了一种针对敏感数据的脱敏处理方法,首先借助设置敏感字库,敏感字库组成包括数据积累词、设定词和关联词组;此处的数据积累词通过对用户的敏感文件进行分析得到;之后针对用户上传文件时,进行的敏感判定,得到其是否属于敏感文件;此处借助敏感字库内的数据积累词、设定词和关联词组进行联动判定,更加准确,也具备自主判定的智能性;之后对得到的敏感文件进行权限设定,具体权限为仅限本人及其直属领导查看;对敏感文件进行脱敏处理,具体通过数据相关属性来对数据进行脱敏处理,对数据合理隐藏;在用户访问时,自动对用户身份进行验证,并根据用户身份查阅敏感文件;本发明简单有效,且易于实用。

主权项:1.一种针对敏感数据的脱敏处理方法,其特征在于,该方法借助下述步骤实现:步骤一:设置敏感字库,敏感字库组成包括数据积累词、设定词和关联词组;设定词为管理人员预先设定的词语;数据积累词借助下述方式进行获取:步骤S1:获取到所有的机密文件,任选一机密文件;步骤S2:获取得到机密文件,对其进行分词处理,得到若干个组成分词;从组成分词里面删除常用词汇,常用词汇为用户预设词语;将剩余的组成分词标记为目标分词;步骤S3:获取到所有的目标分词,并自动获取到所有的目标分词出现次数,将其标记为纵向次数;将目标分词标记为Mi,i=1...n;对应的纵向次数标记为Zi,i=1...n;步骤S4:之后选择下一机密文件,重复步骤S2-S3,得到对应本次机密文件的目标分词和对应的纵向次数;进行目标分词合并操作,得到目标分词Mi及其对应的纵向次数Zi和横向次数Hi,i=1...m;对目标分词合并操作具体为:S401:将其与前面得到的所有目标分词Mi进行合并,将一致的目标分词的纵向次数相加,更新目标分词,将其标记为Mi,i=1...m,对应的纵向次数为Zi,i=1...m;m≥n;S402:之后将本项机密文件内出现的与上一项机密文件内相同的目标分词,定义一个横向次数,并将横向次数的值自动加一,横向次数的值初始为零,将横向次数标记为Hi,i=1...m;且Hi、Zi和Mi一一对应;步骤S5:重复步骤S4,直到对所有的机密文件处理完毕,得到所有的目标分词及其对应的纵向次数和横向次数,三者依次标记为Mi、Zi和Hi,i=1...k,k≥m;步骤S6:之后对目标分词进行核次值计算,具体计算公式为:Qi=0.347*Zi+0.653*Hi;式中,0.347和0.653均为预设的权值,用于体现不同因素对最终结果的不同影响;步骤S7:得到所有目标分词Mi对应的核次值Qi;步骤S8:将Qi大于X1的目标分词,去除设定词之后,剩余的全部标记为数据积累词;步骤S9:当任意三项以上的数据积累词同时出现在同一篇机密文件中的次数超过X2次时,将对应的数据积累词标记为关联词组;X1和X2均为预设数值;步骤二:针对用户上传文件时,进行的敏感判定,得到其是否属于敏感文件;敏感判定具体步骤为:SS1:将用户的上传文件标记为待测文件;SS2:对待测文件进行分词处理,对得到的分词删除常用词汇,之后将得到的分词标记为单构分词;SS3:获取得到所有单构分词的次数,将该次数除以单构分词的总个数,得到的值标记为占用配比;SS4:将占用配比超过X3的单构分词标记为占用分词,X3为预设数值,具体根据多次实验数据设置;SS5:将占用分词与数据积累词、设定词、关联词组进行比较:当占用分词中存在数据积累词或设定词,将其个数除以占用分词的总个数,当得到的值超过X4时,将占用分词所在的待测文件标记为敏感文件;X4为预设数值;当占用分词中出现任意一组关联词组时,自动将其标记为敏感文件;步骤三:对得到的敏感文件进行权限设定,具体权限为仅限本人及其直属领导查看;步骤四:对敏感文件进行脱敏处理;对敏感文件进行脱敏处理的具体处理步骤为:S01:获取到敏感文件中的所有的数据积累词、设定词,将其标记为更换词语;S02:将所有的更换词语按照在敏感文件中的出现顺序进行排列;S03:获取到敏感文件上传的时间戳,以月日时分的形式获取,得到八位数字构成的上传时值组,将其标记为Tj,j=1...8;S04:之后对Tj进行特征值Zt计算,具体计算公式为: 式中,QG{*}指代为对括号内数值,取其个位上的数值;S05:之后根据得到的特征值Zt,当其为奇数时,将更换词语从第Zt个开始,依次往后移一个位置,取代原来的更换词语,代入原本位置;否则,将更换词语从第Zt个开始,依次往前移一个位置,取代原来的更换词语,代入原本位置;S06:得到新的敏感文件标记为脱敏文件;并将时间戳传输至对应有文件阅读权限的用户的个人设备;步骤五:用户访问时,自动对用户身份进行验证,并根据用户身份查阅敏感文件;对用户身份进行验证的具体验证方式为:步骤SS01:当用户登陆时,对其身份密钥录入过程进行监控;具体监控方式为获取到用户录入密钥时候的录入时间,录入时间指代为用户录入第一个字符到最后一个字符的时间;步骤SS02:根据用户的习惯获取到惯性时段,惯性时段获取方式为:步骤SS022:获取到用户近三十次的录入时间,将其标记为Lj,j=1...30;步骤SS023:之后求取录入时间的均值标记为P;步骤SS024:借助公式计算离差值Lc,具体计算公式为: 步骤SS025:之后令j=1,去除对应的录入时间L1之后,重复步骤SS023-SS024的处理过程,得到新的离差值,当新得到的离差值与Lc的差值的绝对值大于X6时,将数据L1剔除,否则不做处理;X6为预设数值;步骤SS026:之后令j值自动加一,重复步骤SS025-SS026,直到对所有的Lj值处理完毕;将剩余的录入时间的最小值到最大值标记为惯性时段;步骤SS03:将录入时间与惯性时段进行比较,得到偏离值;当录入时间位于惯性时段时,偏离值为零;否则,自动将录入时间减去惯性时段的两个端值之后去绝对值,将绝对值小的数值标记为偏离值;步骤SS04:同时监控用户录入密钥的错误次数,错误次数指代当用户出现删除字符重新录入的时候,每删除一次字符并重新录入一次,自动将错误次数的值加一;步骤SS05:获取到用户上一次登陆的时间距今的时间差,将该差值标记为疏远值;步骤SS06:根据公式计算危险值W,具体计算公式为:危险值=0.2疏远值+0.443*错误次数+0.357*偏离值;当危险值超过X7时,产生拒绝信号,否则允许用户登陆;X7为预设数值;步骤SS07:验证通过后若对应身份权限允许读取敏感文件,则会按照步骤四中的脱敏处理的反向原理对脱敏文件进行敏感解除,将其恢复为敏感文件;否则不允许读取敏感文件;步骤六:完成脱敏处理。

全文数据:

权利要求:

百度查询: 浙江图盛输变电工程有限公司温州科技分公司 一种针对敏感数据的脱敏处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。