一种基于匿名化算法的结构化医学数据共享隐私保护方法

导航：龙图腾网> 最新专利技术> 一种基于匿名化算法的结构化医学数据共享隐私保护方法

申请/专利权人：中国医学科学院医学信息研究所

申请日：2023-08-04

公开（公告）日：2024-06-28

公开（公告）号：CN118260802A

主分类号：G06F21/62

分类号：G06F21/62;G06F18/23

优先权：

专利状态码：在审-公开

法律状态：2024.06.28#公开

摘要：本发明公开了一种基于匿名化算法的结构化医学数据共享隐私保护方法，涉及隐私保护技术领域，包括：确定结构化医学数据集中需要进行匿名化的所有属性，采用MSAK匿名算法第一次聚类将原始数据集划分为多个第一子数据集，分离第一子数据集的离群值，形成第二子数据集和第一待分配元组集合；第二次聚类对每个第二子数据集聚类，生成多个由相似元组构成的聚类簇，判断聚类簇的大小和过远元组剪裁，形成第一聚类簇集合、第二聚类簇集合和第二待分配元组集合；在所有聚类簇的基础上进行第三次聚类，将所有待分配元组分配到第一聚类簇集合、第二聚类簇集合中，用聚类中心取代聚类簇内所有元组，生成满足隐私保护模型的等价类，实现数据的匿名化。

主权项：1.一种基于匿名化算法的结构化医学数据共享隐私保护方法，其特征在于，包括：确定结构化医学数据集中需要进行匿名化的所有属性，将其中的显式标识符、准标识符和或敏感属性识别出来，所述显式标识符包括姓名类、编号类和具体联系方式类属性；然后再按照这些类型分别对属性进行处理；其中，所述准标识符包括数值型准标识符和分类型准标识符；所述数值型准标识符的距离度量采用欧几里得距离、曼哈顿距离或切比雪夫距离的计算方法得到；欧几里得距离度量连续性变量的距离，其计算元组i＝xi1,xi2,…,xin和j＝xj1,xj2,…,xjn的距离公式表示为：曼哈顿距离度量离散变量的距离，其计算元组i＝xi1,xi2,…,xin和j＝xj1,xj2,…,xjn的距离公式表示为：di,j＝|xi1-xj1|+|xi2-xj2|+...+|xin-xjn|；切比雪夫距离计算元组i＝xi1,xi2,…,xin和j＝xj1,xj2,…,xjn的距离公式表示为：di,j＝max|xi1-xj1|，|xi2-xj2|，...，|xin-xjn|；所述分类型准标识符的距离度量基于相应的泛化层次结构树确定；在泛化层次结构树中，每个父节点包含一个或多个子节点，没有子节点的节点称为叶子节点，每个叶子节点表示一种分类型准标识符的取值；两个准标识符值的最小公共祖先，从纵向或横向的维度计算两个准标识符值的距离；纵向维度是通过比较子树与泛化层次结构树的总高度的比值计算距离，横向维度是通过比较子树与泛化层次结构树的叶子节点数量的比值计算距离；横向维度距离与叶子节点的数量相关性更强，而纵向维度距离与泛化层次结构树高度相关性更强；根据叶子节点数量和泛化层次结构树高度确定使用纵向或横向维度距离度量分类型准标识符的距离；采用MSAK匿名算法对识别后的属性进行语义标准化归并，构建敏感属性多语义分类树，计算敏感属性最小差异性；构建虚拟初始聚类中心，对识别后的结构化医学数据集以及敏感属性多语义分类树进行数据集聚类划分处理，得到第一子数据集和敏感属性差异性矩阵；统计每个准标识符的取值大小或各属性值出现的频率；将所述数值型准标识符依据数值从小到大升序排列，将所述分类型准标识符依据各属性值出现频率从小到大按比例升序排列，组建序列；设置需要划分的第一子数据集数量为n，对各序列等间距选取n个值；每部分的中线对应的各序列的值即为虚拟初始聚类中心；将序列中的所有元组逐个与聚类中心进行距离比较，将每个元组纳入距离最近的聚类簇中，并更新该聚类簇的聚类中心；记录得到非重复敏感属性值，计算每两个敏感属性值的差异性，构建敏感属性差异性矩阵；根据所述泛化层次结构树将所述第一子数据集的分类属性值转化为哑变量值；通过孤立森林算法拟合数据，检测第一子数据集的离群值，设定离群值比例参数为o；生成离群值集合，并将其纳入到待分配元组集合中，生成第一待分配元组集合；从第一子数据集中分离出所述离群值集合中的数据，生成第二子数据集；设定k-Anonymity模型的参数k和l-Diversity模型的参数l，在所述第二子数据集中，随机选取f个元组作为聚类中心；将剩余的元组与所有聚类中心进行距离比较，并纳入到最近的聚类簇中，更新该聚类簇的聚类中心；对于每个聚类簇，如果聚类簇的大小小于参数k，则将所述聚类簇纳入到第一聚类簇集合中；如果聚类簇的大小大于参数k，则将距离远的元组分离出来，保留k个元组，判断k个元组是否满足l-Diversity模型，如满足则将k个元组纳入到第二聚类簇集合中，否则纳入到第一聚类簇集合中；将分离出来的距离远的元组纳入到第二待分配元组集合中；如果聚类簇的大小等于参数k，判断该聚类簇是否满足l-Diversity模型，如满足则将该聚类簇纳入到第二聚类簇集合中，否则纳入到第一聚类簇集合中；其中，g表示子数据集的元组数；根据聚类簇的元组数量大小判断是否满足k-Anonymity模型；根据所述敏感属性差异性矩阵，计算聚类簇敏感属性值的整体差异性，判断聚类簇中敏感属性值的整体差异性是否满足l-Diversity模型；获取所述敏感属性差异性矩阵；设定聚类簇中有h个敏感属性值，计算各敏感属性值相互间的差异性之和，得到聚类簇敏感属性值的整体差异性；并对所述聚类簇敏感属性值的整体差异性进行归一化处理；判断聚类簇中敏感属性值的整体差异性是否满足l-Diversity模型；所述聚类簇敏感属性值的整体差异性，用公式表示为：对所述聚类簇敏感属性值的整体差异性进行归一化处理，用公式表示为：其中，在计算整体差异性时，聚类簇中每个元素都需要比较h-1次，因此只需要保证在这h-1次中，有l-1次的差异性结果为1，便能满足l-Diversity模型；用公式表达为：当整体差异性D达到Dmin及以上时，则认为聚类簇中敏感属性值的整体差异性满足l-Diversity模型；基于最小簇长约束原则、满足差异性约束原则以及最小信息损失原则，将所述待分配元组集合中的元组逐个分配到第一聚类簇集合和第二聚类簇集合中；所述最小簇长约束原则是指当所述第一聚类簇集合中聚类簇的数量大于0时，先将所述待分配元组集合中的元组分配到所述第一聚类簇集合中，确保每个所述第一聚类簇集合中聚类簇的最小簇长达到k，满足k-Anonymity模型；才能从第一聚类簇集合中剔除并纳入到所述第二聚类簇集合中；所述满足差异性约束原则是指所述第一聚类簇集合中的聚类簇纳入所述待分配元组集合后满足l-Diversity模型，才能从第一聚类簇集合中剔除并纳入到所述第二聚类簇集合中；所述最小信息损失原则是指将所述待分配元组集合与聚类簇的聚类中心比较距离，并分配到距离最近的聚类簇中；对剩余的第一聚类簇集合中的聚类簇进行就近合并，直至同时满足k-Anonymity模型和l-Diversity模型后纳入第二聚类簇集合；否则对聚类簇进行抑制处理；用聚类中心取代所述第二聚类簇集合中聚类簇的所有元组，使每个聚类簇分别生成一个等价类，每个等价类由多条相同元组构成；每个等价类的大小与相应的聚类簇的大小相同；所述等价类共同构成匿名化的数据集；所述待分配元组集合包括所述第一待分配元组集合和所述第二待分配元组集合。

全文数据：

权利要求：

百度查询：中国医学科学院医学信息研究所一种基于匿名化算法的结构化医学数据共享隐私保护方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种具有固定结构的快客杯

下一篇：一种土工格栅注塑模具

相关技术

一种具有固定结构的快客杯

一种土工格栅注塑模具

一种带液晶显示屏可调速的墙体切割机

一种颈部支撑可调节的枕头

一种护理液调和储存罐

一种高强度组合式不锈钢管

一种可控制持握角度的羽毛球拍

一种微型制冷压缩机

自穿刺铆钉、电池及用电设备

一种升降式饺子加工压面机

一种船舶舷外机通风型保护罩

一种口腔扩张支撑装置

化相关技术

结晶化玻璃_日本电气硝子株式会社_202280076798.0

智能化、数字化和互联网化的智慧网联型景观设计方法_华艺生态园林股份有限公司_202410122405.6

基于元宇宙的数字化平台智能化部署控制方法及系统_广东格利数字服务有限公司_202410257579.3

一种可视化数据库可视化方法及系统_成都数据集团股份有限公司_202410430367.0

干化污泥的组合装置以及其制造方法和干化方法_广州正晟科技有限公司_201611037480.4

一种深度学习算法可视化方法以及图片可视化方法_上海人工智能创新中心_202211026132.2

电梯绳索劣化检测方法_上海三菱电梯有限公司_202410263976.1

一种自动化夹具_昆山鼎庆精密模具有限公司_201810181247.6

一种污泥能源化系统_陕西豪拓节能科技有限公司_202410420825.2

一种自动化夹具_东莞市沅欣电子有限公司_202322946087.9

医学相关技术

医学图像配准方法、装置、医学扫描成像设备及存储介质_上海联影医疗科技股份有限公司_202211692628.3

医学成像设备故障处理_皇家飞利浦有限公司_202280076623.X

一种医学治疗装置_上海超光微医疗科技有限公司_202211684542.6

医学影像更新方法、装置和系统_武汉联影医疗科技有限公司_202211675858.9

一种临床医学检验技术涂片器_成都市成华区妇幼保健院_202322971997.2

一种医学影像人体采集点标记系统_李婷_202410365243.9

基于深度表征网络的医学影像异常检测方法和装置_清华大学_202111460563.5

一种医学图像分割方法、系统及计算机_南昌康德莱医疗科技有限公司_202410551535.1

一种医学影像诊断对比阅片方法_南昌大学第二附属医院_202410435388.1

医学图像分析方法、系统、电子设备及存储介质_开立生物医疗科技(武汉)有限公司_202211694823.X

数据共享相关技术

基于大数据的电子材料数据共享管理系统_江西微博科技有限公司_202410432939.9

数据共享处理方法、装置、设备及存储介质_中国建设银行股份有限公司_202410436398.7

在云端提供数据用户可追踪性的数据共享系统及方法_顺天乡大学校产学协力团_202311810208.5

一种保护隐私的医疗数据共享方法、系统及装置_中日友好医院(中日友好临床医学研究所)_202410216559.1

一种库表数据的跨网共享方法及系统_中国电子科技集团公司第三十研究所_202410347240.2

基于零知识证明的密文数据安全共享与访问控制方法_苏州云财数宝科技有限公司_202410080181.7

一种共享数据处理方法、装置、电子设备及存储介质_海南乾唐视联信息技术有限公司_202410215854.5

基于多尺度时空记忆共享网络的缺失监测数据填补方法_重庆大学_202210331030.5

一种基于数据协调安全算法的健康档案共享方法及系统_西康软件有限责任公司_202311486855.5

用于食品检验检测的智能数据共享方法和系统_江苏权正检验检测有限公司_202311378961.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于匿名化算法的结构化医学数据共享隐私保护方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务