在医学研究中,现常出现100+甚至500+的大样本代谢组,但很多小伙伴仍习惯用“小样本思维”——靠单变量检验筛差异代谢物,用普通聚类做分型。这样就会导致出现以下问题:1.用t检验筛Marker,要么出一堆假阳性,要么啥显著差异都找不到。2.想找疾病诊断标志物,模型常易过拟合,换个样本集就“失灵”。3.用K-means分型,重复跑3次出3种结果,根本不敢用在文章里。别担心!基迪奥Omicsmart代谢组平台上线了适用于大样本的机器学习分析模块——整合5大经典机器学习算法+一致性聚类稳健分型,从“标志物筛选”到“样本分层”全流程自动化!今天我们来一起了解下这些方法的原理与筛选特点吧~在代谢组研究中,各样本的分组标签与对应的代谢物丰度特征是训练机器模型的基础。在训练模型时,需要将样本随机划分为测试集和验证集(一般测试集占80%样本,验证集占20%样本),基于不同的模型算法使用测试集进行模型的训练,最后使用验证集评估模型筛选出的特征代谢物是否能准确进行样本分组标签的划分。由于机器学习模型在应用时需要拆分测试集与验证集,因此保证样本数量的相对充足才能有更准确的模型效果。
机器学习模型一般通过ROC和混淆矩阵,对模型的准确率进行评估。ROC曲线反应机器学习模型对标签划分的真阳性率(sensitive)与假阳性率(1-specificity),将不同阈值下的灵敏度与1-特异度值作为二维坐标逐一绘制出,计算点连线后的面积,即AUC值,根据AUC值判断模型的效果,AUC越接近1效果越好,AUC>0.5说明模型较为稳定。混淆矩阵(ConfusionMatrix)是一种比较模型样本分类结果和实际测得值关系的分析。在标准化混淆矩阵中,纵向代表真实的样本比例,横向代表预测的样本比例,同名单元格中的样本比例越高,代表模型的预测结果越准确。图1 Omicsmart代谢组平台ROC与混淆矩阵分析图形1. 支持向量机(Support Vector Mechine, SVM)SVM是一类可用于分类和回归的有监督机器学习模型,在多维空间中找到一个能将全部样本单元分为两类的最优平面,这一平面应使两类中距离最近点的间距尽可能大,在间距边界上的点被称为支持向量(support vector,决定间距),模型采用特征消除(Recursive Feature Elimination,RFE)的方法进行特征集合的筛选。RFE计算每个特征权重并递减排序,每次移除排序最低的特征,使用剩余特征重新训练一个模型,迭代评估消除每个特征对模型性能的影响,最终模型将输出准确度达到最高的特征子集作为最终用于分类的特征集。适用场景:临床小亚组分析(如“早癌vs癌前病变”)、少Marker高区分度需求。
2. 随机森林(Random Forest, RF)RF是决策树分析的一种,用于判别分类,通过对大量决策树汇总提高了模型的预测精度,便于计算变量的非线性作用,可以体现变量间的交互作用,对离群值不敏感,数据分析更稳健,可以用于分类分析和连续型变量的回归分析。RF有Mean Decrease Accuracy与Mean Decrease Gini两个指标评估每个特征对模型的影响程度,通常筛选Mean Decrease Accuray > mean(Mean Decrease Accuray)的特征保留为最后的特征集合。适用场景:大样本异质性数据(如多中心临床队列)、同时做分类(亚型区分)和连续型变量的回归分析(如代谢物浓度与临床指标的定量关联)3. 弹性网络(Elastic Net Regression, ENR)ENR结合L1+L2正则化,既能像LASSO那样筛特征,又能像岭回归那样处理共线性(比如糖酵解通路3个高度相关的代谢物,自动保留最关键的1个),在数据高度相关时自动选择特征,减小矩阵奇异性的影响,模型筛选回归系数不为0的特征保留为最后的特征集合。适用场景:高维共线性数据(如非靶向代谢组)、通路机制关联研究。4. 逻辑回归(Logistic Regression, LR)LR属于广义线性模型,相比于线性回归,更适用于数据不符合线性关系及正态分布的分类分析,故将Logistic回归称为分类模型。LR将线性回归模型的输出通过一个逻辑函数进行转换,将连续的预测值映射到和1之间的概率值,本质还是回归,加上了阈值从而变成分类,模型挑选P<0.05的特征作为最后的特征集合。通俗来讲,它的核心优势是可以把代谢物浓度转化为“疾病概率”(如某代谢物每升高1μmol/L,患病概率增20%),直接输出P<0.05的显著Marker,结果好懂又好解释,临床转化友好。5. 朴素贝叶斯(Naive Bayes Model)朴素贝叶斯模型是基于贝叶斯定理对变量间的独立性进行简单概率分类的机器学习模型,根据一组协变量(先验概率与似然函数的乘积)计算所有可能类别的概率,概率最大的类别即为正确分类,该方法更适用于相互独立的分类变量。模型采用特征消除(Recursive Feature Elimination,RFE)的方法进行特征集合的筛选。该模型基于概率分类,计算速度快,适合大样本初期“Marker初筛”(比如从1000个代谢物里快速缩小到50个候选),降低后续验证成本。适用场景:多类别分组(如“健康vs轻度病vs重度病”)、大样本快速筛选。满足机器学习样本数量的项目,可以在Omicsmart代谢组平台上投递机器学习任务。点击开始交互分析→代谢组大样本分析即可体验机器学习特征识别分析内容~图2 Omicsmart代谢组平台机器学习特征识别交互分析代谢组研究中,“样本分型”是常见需求(如区分疾病/健康组、疾病亚型、代谢表型差异),但普通聚类(如K-means、层次聚类)易因代谢组数据的噪声或outliers导致结果不稳定(同一批数据重复聚类可能得到完全不同的亚型)。
在Omicsmart代谢组分析平台中,我们采用适用于代谢组大样本的一致性聚类法对代谢物进行分型。一致性聚类的本质是通过多次重采样和计算样本间“共聚类频率”(一致性系数),构建“一致性矩阵”来评估聚类结果的可靠性,最终实现对代谢组样本的稳健分型与生物学意义挖掘,尤其适用于疾病亚型挖掘、代谢表型分层等研究方向。基迪奥Omicsmart代谢组分析平台已经正式上线机器学习与样本分型分析内容,项目满足样本要求的小伙伴快来体验新的分析点内容吧~基迪奥自2016年开拓代谢组业务,深耕该领域9年,累计承接5500+项目,构建了从代谢物检测(非靶/广靶/靶向等)到多组学关联分析(如蛋白质组+代谢组、微生物组+代谢组等)的全链条成熟技术体系,成为国内代谢组学科研服务的重要提供者。我们有:针对不同代谢组学,我们匹配了最适合的仪器:非靶向发现(Orbitrap 480/TripleTOF 6600)→广靶初筛(Qtrap 6500+)→靶向验证(AB SCIEX 5500 QQQ)基迪奥勇于创新,不仅开发了代谢组分析平台,还开发了行业内最早的转录-代谢、16S-代谢的关联分析平台
,让多组学的关联分析也能轻松在线完成。高效率发文:2024年共发表192篇代谢组文章,平均2天1篇的发文速度高质量发文:近三年发表的代谢组文章中 ,60%以上文章IF≥5基迪奥生物不仅提供转录、翻译、蛋白、代谢、表观、微生物等常规组学服务,还拥有空间组学和单细胞等多种前沿技术,以及行业内最专业的开发团队和长达十几年的成果积累,始终专注于组学测序和生信分析,为不同领域研究人员提供最优的组学研究策略。欢迎有项目意向的老师扫描下方二维码填写信息,基迪奥为您定制个性化项目执行方案。
*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。
测序未来,从加入基迪奥开始
识别二维码,了解岗位,开启事业新篇章