首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种计算机对空间转录组数据特征选择及聚类方法 

申请/专利权人:吉林大学

申请日:2024-02-28

公开(公告)日:2024-06-25

公开(公告)号:CN118248222A

主分类号:G16B40/00

分类号:G16B40/00;G16B40/30;G06F18/15;G06F18/211;G06F18/2135;G06F18/23213;G06N3/0464;G06N3/0455;G06N3/044;G06N3/042;G06N3/088;G06N3/048

优先权:

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:本发明涉及一种计算机对空间转录组数据特征选择及聚类方法,隶属于科技部国家重点研发课题2021YFF1201203,本课题重点研究生物医学知识图谱自动构建和更新技术体系,通过输入空间转录组数据,以变分自编码器作为基础模型结合K‑means聚类,可以有效的对空间转录组数据做聚类。这种方法可以很好的帮助我们理解基因在生物体内的空间分布,从而揭示其生物过程中的作用。

主权项:1.一种计算机对空间转录组数据特征选择及聚类方法,其特征在于:包括有:步骤一、在对空间转录组数据进行聚类之前,首先需要对所述空间转录组数据进行预处理,所述预处理包括有子步骤:子步骤1:归一化,对所述空间转录组数据归一化,通过将每个基因的表达值减去其平均值并除以其标准差来实现和得到空间转录组数据1,以用于确保所有基因的表达级别在相同的尺度上,从而消除不同基因之间的尺度差异,使得聚类分析准确;子步骤2:对子步骤1处理后的归一化后的空间转录组数据1去除噪声和不相关数据点;在子步骤2中设置阈值得到空间转录组数据2,以只保留表达值高于某个阈值的基因,能提高聚类的准确性,子步骤3,对子步骤1和子步骤2处理后的空间转录组数据2降维:空间转录组数据2通常具有高维性,不能直接对所述空间转录组数据2进行聚类分析,子步骤3使用高可变基因降维技术来将数据投影到低维空间,然而,当子步骤1到子步骤3执行结束后,存在无法捕捉到数据的所有重要特征情况时,所述空间转录组数据2作为高维输入数据执行步骤二;步骤二:使用变分自编码器VAE来学习数据的低维表示,变分自编码器VAE用于学习所述高维输入数据的低维表示;子步骤4:变分自编码器VAE执行部件为编码器和解码器,所述编码器将所述高维输入数据压缩成所述低维隐向量,解码器将所述低维隐向量重新构造为原始维度,执行变分自编码器VAE关键特性,变分自编码器VAE关键特性是能够生成新的、与训练数据相似的数据点;步骤三:为使用变分自编码器VAE学习所述高维输入数据的低维表示,需要执行以下步骤:子步骤5:构建变分自编码器VAE的空间转录组最优化变分自编码器聚类学习模型:首先,需要构建一个空间转录组最优化变分自编码器聚类学习模型,变分自编码器VAE的空间转录组最优化变分自编码器聚类学习模型包括定义编码器和解码器的神经网络结构,以及选择合适的激活函数和优化器;编码器和解码器用图卷积神经网络或循环神经网络来实现,并基于空间转录组的特点,利用空间位置信息构成图,因此选用图卷积神经网络或循环神经网络作为编码器;子步骤6:训练变分自编码器VAE的空间转录组最优化变分自编码器聚类学习模型:接下来使用所述高维输入数据来训练变分自编码器VAE的空间转录组最优化变分自编码器聚类学习模型,子步骤6所有过程涉及到最小化三个损失函数:均方损失函数,用于衡量解码器输出与原始数据的差异、KL散度,用于衡量编码器输出的隐向量与预设的先验分布之间的差异以及最优化传输损失,用于衡量编码器输出的隐向量与解码器输出的差异;通过子步骤6的执行,变分自编码器VAE的空间转录组最优化变分自编码器聚类学习模型能学习到一个能够捕捉到数据主要变化趋势的低维空间,并生成子步骤7的低维表示:一旦VAE训练完成,子步骤7使用编码器部分将所述高维输入数据转换为低维隐向量1,低维隐向量1捕捉数据的主要变化趋势,因此在低维隐向量1构成的宏空间上进行聚类得到精确结果;步骤四:在获得所述高维输入数据的低维表示得到低维表示高维输入数据data后,使用K-means聚类算法对所述低维表示高维输入数据data进行聚类;K-means聚类算法作为无监督学习方法,用于将数据点划分为K个群集,K为自然数,通过最小化每个数据点到其所属群集中心的距离来工作,为使用K-means聚类算法对低维表示高维输入数据data进行聚类,执行以下子步骤:子步骤8:选择K值:首先,确定使用肘部法则或轮廓系数方法来实现将低维表示高维输入数据data划分为n个群集,n为自然数,并找到一个合适的K值,使得n个群集之间的差异最大化,而群集内部的差异最小化;子步骤9:可通过随机选择K个数据点,并使用K-means++聚类算法来实现初始化K个群集中心,K-means++聚类算法能有效地选择初始群集中心,从而加速算法的收敛性;子步骤10:迭代更新群集中心,在每次迭代更新群集中心中,将每个数据点分配给距离其最近的群集中心,并更新群集中心为其群集中心所属数据点的均值,子步骤10这个过程将不断重复,直到群集中心不再发生显著变化;计算聚类结果:最后子步骤11:计算聚类结果,即每个数据点所属的群集;计算聚类结果可通过将每个数据点分配给距离其最近的群集中心来实现;步骤五:在获得聚类结果后,需要通过以下子步骤来实现解析和验证聚类结果:子步骤12:查看基因表达模式:通过查看每个群集中基因的表达模式,以了解群集在生物学上的含义,即a:检查每个群集中基因的功能注释,以确定是否具有相似的生物学过程或通路;b:使用生物学标记验证结果:c:使用已知的生物学标记来验证聚类结果,可通过比较结果与已知的细胞类型或组织结构信息来实现,如果得到的聚类结果与已知的生物学信息一致,那么则判断结果是可靠的;d:生成新的数据点:e:使用变分自编码器VAE生成新的、具有相似表达模式的数据点,然后以查看这些新的、具有相似表达模式的数据点被分配到哪个群集,以进一步验证变分自编码器VAE的空间转录组最优化变分自编码器聚类学习模型。

全文数据:

权利要求:

百度查询: 吉林大学 一种计算机对空间转录组数据特征选择及聚类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。