首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于匿名化算法的结构化医学数据共享隐私保护方法 

申请/专利权人:中国医学科学院医学信息研究所

申请日:2023-08-04

公开(公告)日:2024-06-28

公开(公告)号:CN118260802A

主分类号:G06F21/62

分类号:G06F21/62;G06F18/23

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本发明公开了一种基于匿名化算法的结构化医学数据共享隐私保护方法,涉及隐私保护技术领域,包括:确定结构化医学数据集中需要进行匿名化的所有属性,采用MSAK匿名算法第一次聚类将原始数据集划分为多个第一子数据集,分离第一子数据集的离群值,形成第二子数据集和第一待分配元组集合;第二次聚类对每个第二子数据集聚类,生成多个由相似元组构成的聚类簇,判断聚类簇的大小和过远元组剪裁,形成第一聚类簇集合、第二聚类簇集合和第二待分配元组集合;在所有聚类簇的基础上进行第三次聚类,将所有待分配元组分配到第一聚类簇集合、第二聚类簇集合中,用聚类中心取代聚类簇内所有元组,生成满足隐私保护模型的等价类,实现数据的匿名化。

主权项:1.一种基于匿名化算法的结构化医学数据共享隐私保护方法,其特征在于,包括:确定结构化医学数据集中需要进行匿名化的所有属性,将其中的显式标识符、准标识符和或敏感属性识别出来,所述显式标识符包括姓名类、编号类和具体联系方式类属性;然后再按照这些类型分别对属性进行处理;其中,所述准标识符包括数值型准标识符和分类型准标识符;所述数值型准标识符的距离度量采用欧几里得距离、曼哈顿距离或切比雪夫距离的计算方法得到;欧几里得距离度量连续性变量的距离,其计算元组i=xi1,xi2,…,xin和j=xj1,xj2,…,xjn的距离公式表示为: 曼哈顿距离度量离散变量的距离,其计算元组i=xi1,xi2,…,xin和j=xj1,xj2,…,xjn的距离公式表示为:di,j=|xi1-xj1|+|xi2-xj2|+...+|xin-xjn|;切比雪夫距离计算元组i=xi1,xi2,…,xin和j=xj1,xj2,…,xjn的距离公式表示为:di,j=max|xi1-xj1|,|xi2-xj2|,...,|xin-xjn|;所述分类型准标识符的距离度量基于相应的泛化层次结构树确定;在泛化层次结构树中,每个父节点包含一个或多个子节点,没有子节点的节点称为叶子节点,每个叶子节点表示一种分类型准标识符的取值;两个准标识符值的最小公共祖先,从纵向或横向的维度计算两个准标识符值的距离;纵向维度是通过比较子树与泛化层次结构树的总高度的比值计算距离,横向维度是通过比较子树与泛化层次结构树的叶子节点数量的比值计算距离;横向维度距离与叶子节点的数量相关性更强,而纵向维度距离与泛化层次结构树高度相关性更强;根据叶子节点数量和泛化层次结构树高度确定使用纵向或横向维度距离度量分类型准标识符的距离;采用MSAK匿名算法对识别后的属性进行语义标准化归并,构建敏感属性多语义分类树,计算敏感属性最小差异性;构建虚拟初始聚类中心,对识别后的结构化医学数据集以及敏感属性多语义分类树进行数据集聚类划分处理,得到第一子数据集和敏感属性差异性矩阵;统计每个准标识符的取值大小或各属性值出现的频率;将所述数值型准标识符依据数值从小到大升序排列,将所述分类型准标识符依据各属性值出现频率从小到大按比例升序排列,组建序列;设置需要划分的第一子数据集数量为n,对各序列等间距选取n个值;每部分的中线对应的各序列的值即为虚拟初始聚类中心;将序列中的所有元组逐个与聚类中心进行距离比较,将每个元组纳入距离最近的聚类簇中,并更新该聚类簇的聚类中心;记录得到非重复敏感属性值,计算每两个敏感属性值的差异性,构建敏感属性差异性矩阵;根据所述泛化层次结构树将所述第一子数据集的分类属性值转化为哑变量值;通过孤立森林算法拟合数据,检测第一子数据集的离群值,设定离群值比例参数为o;生成离群值集合,并将其纳入到待分配元组集合中,生成第一待分配元组集合;从第一子数据集中分离出所述离群值集合中的数据,生成第二子数据集;设定k-Anonymity模型的参数k和l-Diversity模型的参数l,在所述第二子数据集中,随机选取f个元组作为聚类中心;将剩余的元组与所有聚类中心进行距离比较,并纳入到最近的聚类簇中,更新该聚类簇的聚类中心;对于每个聚类簇,如果聚类簇的大小小于参数k,则将所述聚类簇纳入到第一聚类簇集合中;如果聚类簇的大小大于参数k,则将距离远的元组分离出来,保留k个元组,判断k个元组是否满足l-Diversity模型,如满足则将k个元组纳入到第二聚类簇集合中,否则纳入到第一聚类簇集合中;将分离出来的距离远的元组纳入到第二待分配元组集合中;如果聚类簇的大小等于参数k,判断该聚类簇是否满足l-Diversity模型,如满足则将该聚类簇纳入到第二聚类簇集合中,否则纳入到第一聚类簇集合中;其中,g表示子数据集的元组数;根据聚类簇的元组数量大小判断是否满足k-Anonymity模型;根据所述敏感属性差异性矩阵,计算聚类簇敏感属性值的整体差异性,判断聚类簇中敏感属性值的整体差异性是否满足l-Diversity模型;获取所述敏感属性差异性矩阵;设定聚类簇中有h个敏感属性值,计算各敏感属性值相互间的差异性之和,得到聚类簇敏感属性值的整体差异性;并对所述聚类簇敏感属性值的整体差异性进行归一化处理;判断聚类簇中敏感属性值的整体差异性是否满足l-Diversity模型;所述聚类簇敏感属性值的整体差异性,用公式表示为: 对所述聚类簇敏感属性值的整体差异性进行归一化处理,用公式表示为:其中,在计算整体差异性时,聚类簇中每个元素都需要比较h-1次,因此只需要保证在这h-1次中,有l-1次的差异性结果为1,便能满足l-Diversity模型;用公式表达为: 当整体差异性D达到Dmin及以上时,则认为聚类簇中敏感属性值的整体差异性满足l-Diversity模型;基于最小簇长约束原则、满足差异性约束原则以及最小信息损失原则,将所述待分配元组集合中的元组逐个分配到第一聚类簇集合和第二聚类簇集合中;所述最小簇长约束原则是指当所述第一聚类簇集合中聚类簇的数量大于0时,先将所述待分配元组集合中的元组分配到所述第一聚类簇集合中,确保每个所述第一聚类簇集合中聚类簇的最小簇长达到k,满足k-Anonymity模型;才能从第一聚类簇集合中剔除并纳入到所述第二聚类簇集合中;所述满足差异性约束原则是指所述第一聚类簇集合中的聚类簇纳入所述待分配元组集合后满足l-Diversity模型,才能从第一聚类簇集合中剔除并纳入到所述第二聚类簇集合中;所述最小信息损失原则是指将所述待分配元组集合与聚类簇的聚类中心比较距离,并分配到距离最近的聚类簇中;对剩余的第一聚类簇集合中的聚类簇进行就近合并,直至同时满足k-Anonymity模型和l-Diversity模型后纳入第二聚类簇集合;否则对聚类簇进行抑制处理;用聚类中心取代所述第二聚类簇集合中聚类簇的所有元组,使每个聚类簇分别生成一个等价类,每个等价类由多条相同元组构成;每个等价类的大小与相应的聚类簇的大小相同;所述等价类共同构成匿名化的数据集;所述待分配元组集合包括所述第一待分配元组集合和所述第二待分配元组集合。

全文数据:

权利要求:

百度查询: 中国医学科学院医学信息研究所 一种基于匿名化算法的结构化医学数据共享隐私保护方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。