北京北国咨数字科技有限公司屠静获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京北国咨数字科技有限公司申请的专利一种基于无监督学习的敏感信息自动标注方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118568254B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410515704.6,技术领域涉及:G06F16/353;该发明授权一种基于无监督学习的敏感信息自动标注方法及装置是由屠静;王亚;赵策;李伟伟;颉彬;周勤民;张玥;雷媛媛;孙岩设计研发完成,并于2024-04-26向国家知识产权局提交的专利申请。
本一种基于无监督学习的敏感信息自动标注方法及装置在说明书摘要公布了:本发明涉及人工智能技术领域,特别是指一种基于无监督学习的敏感信息自动标注方法及装置。基于无监督学习的敏感信息自动标注方法包括:获取输入数据;对输入数据进行分词预处理,获得预处理后数据;利用自编码器模型在预处理后数据上生成词嵌入;根据预处理后数据构建图模型;对图模型进行基于图的统计分析,获得候选敏感信息;基于自适应标注规则生成机制,对候选敏感信息进行筛选,获得敏感信息;基于图模型,根据敏感信息确定敏感信息节点;根据词嵌入、分析结果和敏感信息节点进行整合,获得混合模型;基于混合模型进行敏感信息标注决策。本发明是一种能够有效、全面并自动地标注敏感信息的方法及系统。
本发明授权一种基于无监督学习的敏感信息自动标注方法及装置在权利要求书中公布了:1.一种基于无监督学习的敏感信息自动标注方法,其特征在于,所述方法包括:获取输入数据;对所述输入数据进行分词预处理,获得预处理后数据;所述分词预处理包括单字级预处理以及词汇级预处理;所述预处理后数据包括单字级信息、词汇级信息、单字间相互关系和词汇间相互关系;其中,所述词汇级预处理的步骤包括初步分词、词性标注、词汇过滤和多义词消歧;在所述初步分词中采用基于无监督学习算法进行分词;利用自编码器模型在预处理后数据上生成词嵌入;所述自编码器模型用于根据单字级信息以及词汇级信息生成高维词语表示;其中,所述自编码器模型的编码器用于把所述单字级信息以及所述词汇级信息转换为潜在空间向量;所述自编码器模型的混合融合层用于把所述潜在空间向量融合为融合潜在空间向量;所述混合融合层使用注意力机制合并所述单字级信息以及所述词汇级信息;所述自编码器模型的解码器用于根据所述融合潜在空间向量生成词嵌入;根据所述预处理后数据构建图模型;所述图模型的节点代表来自预处理后数据中的单字级信息或词汇级信息;所述图模型的边代表单字间相互关系或词汇间相互关系;对所述图模型进行基于图的统计分析,获得候选敏感信息;其中,所述对所述图模型进行基于图的统计分析,获得候选敏感信息,包括:根据所述图模型的节点进行计算,得到节点直接相连的边的数量;根据所述边的数量,获得节点的度;将所述节点的度存储在哈希表中;根据所述图模型的节点,获得节点的邻居节点;根据所述节点以及所述邻居节点进行计算,得到边的实际数量以及边的最大数量;根据所述边的实际数量以及边的最大数量进行计算,得到节点的聚类系数;将所述聚类系数存储在哈希表中;遍历存储所述节点的度以及所述节点的聚类系数的哈希表,根据预设阈值对所述图模型的节点进行标记,获得候选敏感信息节点;根据所述图模型以及所述候选敏感信息节点,获得候选敏感信息节点对应的候选敏感信息;其中,所述根据所述节点以及所述邻居节点进行计算,得到边的实际数量以及边的最大数量,包括:对于图中的每一个节点,找出所有邻居节点;计算所有邻居节点间实际存在的边的数量;计算所有邻居节点间可能存在的边的最大数量;聚类系数等于实际存在的边的数量除以可能存在的边的最大数量;基于自适应标注规则生成机制,对所述候选敏感信息进行筛选,获得敏感信息;基于所述图模型,根据所述敏感信息确定敏感信息节点;所述自适应标注规则用于匹配单字级以及词汇级的敏感信息;其中,所述基于自适应标注规则生成机制,对所述候选敏感信息进行筛选,获得敏感信息,包括:在初始化阶段,创建初步规则集合;所述初步规则集合包括至少一个正则表达式以及至少一个关键字列表;根据所述初步规则集合进行初始化;创建敏感信息哈希表;在规则优化阶段,对所述初步规则集合进行F1分数评估,获得F1分数结果;根据所述F1分数结果,对所述初步规则集合进行优化,获得优化后规则集合;在敏感信息确定阶段,基于所述优化后规则集合,对所述候选敏感信息进行筛选,获得筛选后敏感信息;将所述筛选后敏感信息进行交叉验证以及人工专家审核,获得敏感信息;将所述敏感信息存储在所述敏感信息哈希表中;根据所述词嵌入、分析结果和所述敏感信息节点进行整合,获得混合模型;基于所述混合模型进行敏感信息标注决策;所述混合模型为多层感知机;其中,所述分析结果包括节点的度以及聚类系数;其中,所述根据所述词嵌入、分析结果和所述敏感信息节点进行整合,获得混合模型,包括:使用多层感知机作为混合模型的基础框架;所述多层感知机的输入包括自编码器模型生成的词嵌入、基于分析结果和自适应标注规则生成机制确定的敏感信息节点;所述多层感知机的输出为节点表示的信息是否敏感的概率。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京北国咨数字科技有限公司,其通讯地址为:101149 北京市通州区滨惠北一街3号院1号楼1层1-8-161;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。