首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京理工大学

摘要:本发明提供一种基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法,对基因表达数据进行特征基因选择和癌症样本分类。通过降维方法对基因表达数据进行数据降维,对降维后的数据进行特征基因选择和癌症样本分类。本发明有效地提高了基因表达数据特征基因的选择水平和癌症样本的分类效果。

主权项:1.一种基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法,其特征在于,具体步骤为:步骤1、对输入的基因表达数据进行归一化处理;步骤2、将归一化后的基因样本数据分割成训练数据集和测试数据集;步骤3、用RLSDSPCA模型在训练数据集上进行模型的训练,在训练过程中通过交叉验证的方法来获得模型的最优参数,所述RLSDSPCA是指鲁棒拉普拉斯流形监督鉴别稀疏PCA;步骤4、用交叉方向乘子法进行迭代来更新RLSDSPCA模型的参数矩阵,每次更新完后,都要判断是否停止方法的条件,若不满足,则继续更新参数矩阵,若满足则停止方法,生成最优的RLSDSPCA预测模型,其中,用交叉方向乘子法进行迭代,增广拉格朗日函数如下: 其中,α,β和γ分别是平衡类别标签信息项、稀疏约束项和内在几何结构捕获项的权重参数;||·||2,1表示L2,1范数,||·||F表示Frobenius范数,Tr.表示矩阵的迹,矩阵X∈Rm×n和Y∈Rc×n分别表示输入基因表达数据的样本数据矩阵和类别标签矩阵,m表示基因数,n表示样本数,c表示类别的个数,U∈Rm×k表示定义最佳kkm维空间的主方向,Q∈Rn×k表示样本数据矩阵经过降维后在新k维空间中的投影数据点,k表示将数据降维后的维度,A∈Rc×k表示类别标签矩阵经过降维后在新k维空间中的投影数据点,L∈Rn×n表示拉普拉斯流形的矩阵,对角矩阵G∈Rn×n是为了用来优化||Q||2,1而引入的,辅助变量矩阵E∈Rm×n用来指代x-UQT,C∈Rm×n是拉格朗日乘数,μ是控制更新步长的惩罚参数;用交叉方向乘子法进行迭代来更新RLSDSPCA模型的参数矩阵Q和U,每次更新完后,都要判断是否停止方法的条件,若不满足,则继续更新参数矩阵Q和U,若满足则停止方法,生成最优的RLSDSPCA预测模型,具体步骤为:步骤4.1、设置方法收敛参数ξ=1e-50,当前迭代次数iter=1及最大迭代次数t=100,将G,E,C初始化为对角矩阵,随机初始化A和Q1,构建样本数据矩阵的邻接权矩阵之后可以得到拉普拉斯流形图L;步骤4.2、根据X,Y,E,C,G和L来计算Q,具体计算公式为: s.t.QTQ=I令通过计算矩阵s的前k个最小特征值对应的特征向量,得到最优Q;步骤4.3、根据X,Q,E和C来计算U,具体计算公式为: 步骤4.4、根据Y和Q来计算A,具体计算公式为:A=YQ步骤4.5、根据Q来计算G,具体计算公式为: 其中,Gii表示G的第i个对角线元素,||qi||2表示Q矩阵行向量的L2范数;步骤4.6、根据X,Q,U和C来计算E,具体计算公式为: 其中,令ei和pi分别为E和P的第i列元素,则上式的解法如下: 步骤4.7、根据X,Q,E和U来计算C,具体计算公式为:C=C+μE-X+UQT步骤4.8、计算μ,具体公式为:μ=ρμ其中ρ∈[1.1,1.5];步骤4.9、检查是否满足收敛条件:||Q-Q1||2,1ξ,Q表示最新计算的矩阵,而Q1表示前一次计算的矩阵,比较两者之差的L2,1范数是否小于收敛参数ξ,若小于则方法结束,若不满足,则方法继续往下执行;步骤4.10、令Q1=Q,将Q赋值给Q1;步骤4.11、更新迭代次数iter=iter+1,当iter的值小于最大迭代次数t时,返回步骤4.2,否则停止方法循环,生成最优的预测模型;步骤5、把测试数据集输入到生成的RLSDSPCA预测模型中,预测该测试数据集的类别标签;步骤6、用K近邻分类方法对预测出来的类标标签进行分类;步骤7、对降维后的数据进行特征基因的选择。

全文数据:

权利要求:

百度查询: 南京理工大学 基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。