首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于机器遗忘学习的在线学习数据隐私保护模型训练方法_福建师范大学_202410101451.8 

申请/专利权人:福建师范大学

申请日:2024-01-24

公开(公告)日:2024-06-04

公开(公告)号:CN118133336A

主分类号:G06F21/62

分类号:G06F21/62;G06F18/214;G06F18/22;G06N20/00

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.21#实质审查的生效;2024.06.04#公开

摘要:本发明公开基于机器遗忘学习的在线学习数据隐私保护模型训练方法,先根据在线学习数据集的类别相似度进行分块,分块之后得到的数据块,分片之后选取合适的值对分片进行组合分组。对于小数据块,采用增量串行训练方式,但以分片组为间隔存储训练模型。对于大数据块,采用并行训练方式,各个分片组组间并行训练模型,最后再进行聚合。但要对在线学习数据进行保护时,只需要查找遗忘数据所在的分片组对应的训练模型,单独重新训练或选取之前一个模型迭代训练即可。通过本发明提供的机器遗忘学习模型,在保障数据隐私的前提下,可以减少数据块子模型过程备份的存储代价,并且考虑到大、小数据块的区别,减少了数据遗忘代价以及训练效率。

主权项:1.基于机器遗忘学习的在线学习数据隐私保护模型训练方法,其特征在于:其包括模型训练部分和遗忘部分,具体包括以下步骤:模型训练部分:S1-1,根据在线学习数据集的类别相似度划分数据集,得到N份不相交的数据块;S1-2,并行处理并训练N个数据块,分别对数据块进行切片分割并各自得到若干个大小相同分片数据;S1-3,根据块的分片数量选择特定值X对分片数据分区,以特定值X为间隔,每X个分片数据分为一组,得到若干个分组;S1-4,根据数据块的分片数量判断是否为大数据块;如果是,则判定分片数量过多,采用分片组间并行训练且组内增量式训练的形式得到数据块的子模型;否则,依序训练数据块中的分片,以分片组为单位存储训练过程中的分片子模型,直到训练完整个数据块中的分片得到数据块的子模型;S1-5,N个数据块的子模型训练完成得到分块子模型序列后,采用模型聚合算法聚合分块子模型序列得到整个在线学习数据集的最终训练模型;遗忘部分:S2-1,选择指定的隐私数据进行遗忘,查找数据所在分片对应的数据块以及分片组,删除该数据分片;S2-2,判断遗忘分组能否进行数据聚合;如果能,则遗忘分组数据聚合后删除最后一个分组所对应的分片子模型并执行S2-3;否则,执行S2-3;S2-3,根据数据块的分片数量判断是否为大数据块;如果是,则重新训练遗忘分组的分片子模型得到新的分片子模型并执行S-4;否则,对遗忘分组后续的分片子模型进行重新训练得到新的分片子模型并执行S-4;S2-4,将重新训练后的分片子模型加入分块子模型序列,采用模型聚合算法聚合分块子模型序列重新得到整个在线学习数据集的最终训练模型。

全文数据:

权利要求:

百度查询: 福建师范大学 基于机器遗忘学习的在线学习数据隐私保护模型训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。