买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:江西中医药大学
摘要:本申请提供了一种代谢组学数据处理方法、装置、设备及可读存储介质,属于数据处理领域。其中方法包括:从原始数据集中依次选取原始样本作为原始目标样本,计算原始目标样本与原始数据集中原始非目标样本的相似距离差;选取原始目标样本的近邻样本以及近邻数值;最后得到预处理数据集;从预处理数据集中依次选取预处理样本作为待插补目标样本,根据待插补目标样本、近邻样本和近邻数值计算预测缺失值,将预测缺失值填入待插补样本的缺失位置,最后得到插补数据集。本申请通过原始数据集中样本的相似距离差得到近邻样本,考虑了原始数据样本间的分布情况,通过权重体现待插补样本与近邻样本间的关联性,使得插补数值更加精准。
主权项:1.一种代谢组学数据处理方法,其特征在于,所述方法包括:S1、从原始数据集中依次选取原始样本作为原始目标样本,计算所述原始目标样本与所述原始数据集中原始非目标样本的相似距离差;S2、根据所述相似距离差选取所述原始目标样本的近邻样本以及近邻数值;S3、获取在所述原始目标样本中缺失值的缺失位置,根据所有原始样本在所述缺失位置的代谢数值生成一组正态分布数据;S4、将所述缺失值进行分类,根据分类结果从所述正态分布数据中选取目标数值,将所述目标数值填入所述原始目标样本的缺失位置;S5、循环执行S1-S4的步骤,直至所述原始数据集中全部原始样本的缺失位置均被填入目标数值,得到预处理数据集;S6、从所述预处理数据集中依次选取预处理样本作为待插补目标样本,根据所述待插补目标样本、所述待插补目标样本对应的近邻样本和近邻数值计算每个近邻样本的权重;S7、根据所述待插补目标样本的每个近邻样本以及其对应的权重,计算所述待插补目标样本的预测缺失值,将所述预测缺失值填入所述待插补目标样本的缺失位置;S8、循环执行S6-S7的步骤,直至所述预处理数据集中所有预处理样本的缺失位置均被填入预测缺失值,得到插补数据集;所述计算所述原始目标样本与所述原始数据集中原始非目标样本的相似距离差,包括:根据公式(1)计算所述原始目标样本与所述原始数据集中原始非目标样本的相似距离差,所述公式(1)为: (1)其中,为原始目标样本与原始非目标样本之间的相似距离差,代表第个原始目标样本,代表第个原始非目标样本,代表第个原始目标样本的第个代谢数值,代表第个原始非目标样本的第个代谢数值,为每个原始样本下代谢数值个数,代表第个原始目标样本的第个代谢数值是否缺失,代表第个原始非目标样本的第个代谢数值是否缺失,代表第个原始目标样本的第个代谢数值是否缺失,代表第个原始非目标样本的第个代谢数值是否缺失,或为0则表示缺失,或为1则表示没有缺失;所述根据所述相似距离差选取所述原始目标样本的近邻样本以及近邻数值,包括:根据所述相似距离差计算所述原始目标样本的预设距离差,并根据所述预设距离差获取最大有效距离;若所述原始非目标样本的相似距离差小于等于所述最大有效距离,则所述原始非目标样本为所述近邻样本;统计所述近邻样本的个数,得到所述近邻数值;所述根据所述相似距离差计算所述原始目标样本的预设距离差,包括:根据公式计算所述原始目标样本的预设距离差;其中,表示第个原始目标样本的预设距离差,为具有缺失值的原始样本个数,表示第个原始目标样本与前个原始非目标样本的最大相似距离差,与第个原始目标样本与所有原始非目标样本的最小相似距离差之间的差值;根据所述预设距离差获取最大有效距离,包括:根据公式计算所述原始目标样本的最大有效距离;其中,表示第个原始目标样本的最大有效距离,表示第个原始目标样本与所有原始非目标样本的最小相似距离差;所述根据所有原始样本在所述缺失位置的代谢数值生成一组正态分布数据,包括:获取所有原始样本在所述缺失位置下的最小代谢数值,并将所述最小代谢数值填入所述原始目标样本的缺失位置;获取所有原始样本在所述缺失位置的代谢数值组成一组代谢数值,计算所述一组代谢数值的平均值和方差,生成所述正态分布数据;所述分类结果包括非随机缺失和完全随机缺失,所述根据分类结果从所述正态分布数据中选取目标数值,包括:若所述近邻样本在所述缺失位置下的代谢数值缺失,则为所述非随机缺失,从所述一组正态分布数据中随机选取小于所述最小代谢数值的数据作为所述目标数值;若所述近邻样本在所述缺失位置下的代谢数值不缺失,则为所述完全随机缺失,从所述一组正态分布数据中随机选取数值作为所述目标数值。
全文数据:
权利要求:
百度查询: 江西中医药大学 代谢组学数据处理方法、装置、设备及可读存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。