首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种无监督多视图数据的特征提取与聚类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:贵州大学

摘要:本发明涉及多视图数据处理技术领域,具体涉及了一种无监督多视图数据的特征提取与聚类方法。包括以下步骤:S100:采集各领域多视图数据作为样本数据,得到多视图数据集;S200:将多视图数据集输入基于孪生对比学习的多视图聚类TCMCTwinContrastiveLearningforMulti‑viewClustering模型,设置模型参数进行训练;S300:模型收敛后,得到多视图数据中的多级目标信息,所述多级目标信息包括自编码器重建级混合低级特征、孪生对比学习实例级一致性信息、簇级辨别私有信息以及在线聚类分配结果;能够以端到端的方式独立地为每个实例进行聚类分配,从而实现大规模的在线聚类。

主权项:1.一种无监督多视图数据的特征提取与聚类方法,其特征在于:包括以下步骤:S100:采集各领域多视图数据作为样本数据,得到多视图数据集;S200:将多视图数据集输入基于孪生对比学习的多视图聚类TCMCTwinContrastiveLearningforMulti-viewClustering模型,设置模型参数进行训练;S300:模型收敛后,得到多视图数据中的多级目标信息,所述多级目标信息包括自编码器重建级混合低级特征、孪生对比学习实例级一致性信息、簇级辨别私有信息以及在线聚类分配结果;所述S200包括以下步骤:S210:多视图自动编码器:利用自动编码器从原始数据中提取并保存全部信息的初级特征;S220:多视图孪生对比学习:通过孪生对比学习MLPMulti-viewTwinContrastiveLearning对初级特征进行过滤,孪生对比学习MLP包括实例级对比头FeatureMLP和多视图簇级对比头LabelMLP,通过多视图实例级对比头FeatureMLP挖掘实例多视图间的公共语义信息和实例间的判别私有信息,通过多视图簇级对比头LabelMLP挖掘簇在多视图间的公共语义信息和簇与簇之间的鉴别私有信息,同时通过训练好的LabelMLP实现在线聚类;S230:逐步选择高置信度预测样本作为伪标签,对模型进行微调;所述S210包括以下步骤:S211:对每一个多视图数据集设置独立的编码器和独立的解码器,其中网络参数为的编码器和网络参数为解码器只针对m个视图数据集数进行压缩重构训练;S212:在第m个视图数据集中的第i各样本数据通过编码器得到维度为L的潜在特征,其中;S213:将潜在特征通过解码器进行重构得到重构数据,其中;S214:第m个视图数据集重构损失为,其中为所有视图的重构损失和作为多视图编码器训练器的损失函数;S215:通过预训练多视图自编码器: ;S216:通过预训练好的多视图自编码器提取初级特征;所述S220包括以下步骤:S221:将初级特征通过多视图实例级对比头(FeatureMLP)计算实例级对比损失;S222:将初级特征通过多视图簇级对比头(LabelMLP)计算簇级对比损失;S233:将孪生对比损失与重构损失进行联合训练,孪生对比学习的损失函数如下公式所示 ;所述S221包括以下步骤:S221-1:通过堆叠的实例级特征多层感知机(FeatureMLP)作为多视图实例级对比头,即,将多视图初级特征通过多视图实例级对比头映射到子空间,得到实例级高级特征,其中N为每一次迭代实例数量,M为每个实例拥有的视图数量,每一个实例高级特征向量能够与剩余的个实例高级特征两两一组,组成个特征对,其中同一实例不同视图组成个正特征对,剩余的个特征对为负特征对;S221-2:通过余弦距离衡量特征在子空间的空间位置: 两个视图之间的实例级对比损失表示如下: 其中是控制对负样本感知程度的实例级温度控制系数,是当时峰值为1的指示函数;S221-3:将所有视图两两之间的实例级对比损失累计求和,其计算的结果作为多视图实例级对比学习的损失函数: ;所述S222包括以下步骤:S222-1:堆叠一个簇级多层感知器(LableMLP)作为多视图簇级对比头,在多视图簇级对比头的最后一层设置Softmax来输出分配概率,即,通过簇级对比头,将多视图初级特征投影到维度与簇数K大小相同的子空间中,获得聚类分配矩阵;S222-2:通过聚类级对比头对每个实例进行聚类分配,聚类分配标签由软分配中的最大元素的列号表示,聚类分配预测如下: ;S222-3:通过余弦距离衡量两个簇级特征相似性,带入矩阵的列: 其中和分别表示的第i列、的第j列;S222-4:将不同视角的相同列的特征设为正,其余相对为负,和两个视图之间的簇级对比损失设置为以下公式: 其中N为每一次迭代实例数量,M为每个实例拥有视图的数量,将其映射到簇级子空间后得到聚类分布矩阵,每一个簇级特征向量能与剩余的MN-1个簇级特征两两一组,形成MN-1个特征对,其中同一数据不同视图件组成M-1个正特征对,剩余的M(N-1)个特征对为负特征对,是控制对负样本感知程度的实例级温度系数,是当是值为1的指示函数;将所有视图两两之间的簇级对比损失累计求和其结果如下所示: 。

全文数据:

权利要求:

百度查询: 贵州大学 一种无监督多视图数据的特征提取与聚类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。