IF 16+的临床大队列分析怎么做？代谢组方向机器学习打开胃癌精准诊断预测之门

今天跟大家分享一篇基于临床大队列代谢组数据，通过机器学习构建诊断/预测模型进行肿瘤预后研究的生信高分文章。文章标题：Metabolomic machine learning predictor for diagnosis and prognosis of gastric cancer.

PART 01

研究背景

诊断胃癌（GC）的金标准是内窥镜检查，具有侵入性和费用高的特点，目前迫切需要高灵敏度和高特异度的非侵入性检测方法。此外，通过预后监测及时进行疾病管理有助于改善临床结果，目前临床预后预测在很大程度上依赖于外科医生基于各种临床指征的经验判断。

因此，开发一种更准确的方法来预测患者的预后并将他们分成不同的风险组进行适当的干预至关重要。

PART 02

研究思路

该研究从总共 702位参与者（包括389名GC患者和313名非GC患者）中获取了血浆样本。基于LC-MS的定向液相代谢组学方法获得了这些血浆样本的代谢组。然后，作者比较了GC和非GC的代谢差异，并使用机器学习算法研究了代谢标志物与临床表型之间的关联。最后开发了一个GC诊断模型（10-DM模型），并评估了该模型在区分GC患者和非GC患者方面的性能。此外，还构建了一个预后模型（28-PM模型），并评估了模型的风险分层能力。

PART 03

研究结果

绘制GC患者重新编程的血浆代谢图谱

702名患者（GC vs NGC）血浆样本的代谢组学数据，总共检测到147种代谢物。首先主成分分析(PCA)能够区分GC和NGC样本，表明GC代谢组经历了重塑。进一步发现总共有45种代谢物在GC和NGC中有统计学差异。而且随着疾病的进展，这些失调的代谢物表现出3个明显不同的趋势(Cluster1–3)。随着癌症的发生和发展，Cluster1的代谢物(如neopterin和N(7)-methylguanosine)呈现持续增长的模式，而Cluster2的代谢物(如glutathione disulfide (GSSG), uridine)显示出持续减少的趋势。

此外，对这些差异代谢物进行KEGG富集分析发现谷胱甘肽代谢是胃癌中受干扰最严重的通路。此外，半胱氨酸和蛋氨酸代谢也强烈扰乱了GC患者的代谢途径。

机器学习筛选胃癌早期诊断标志物

接下来，作者利用LASSO回归算法筛选到10种主要代谢物来区分GC和NGC，然后通过随机森林构建诊断模型(10-DM模型)，并通过ROC分析评估诊断模型预测性能。结果显示诊断模型具有准确的预测性能（AUROC=0.967）。此外，10-DM模型中琥珀酸、尿苷和乳酸是三种最重要的代谢物，对诊断模型具有重要贡献。

为了进一步评估诊断模型在早期GC诊断中的有效性，作者利用10-DM模型来区分IA/IB期GC和NGC。该模型对IA期患者的预测准确率为90.9%，IB期患者预测准确率为92.7%。说明10-DM模型在筛查早期患者方面具有具有很高的敏感度和可靠性。

最后，作者还将10-DM模型与现有的3个临床肿瘤生物标记物CA19-9、CA72-4和CEA(统称为3-biomarker panel)进行了比较。结果显示10-DM模型表现出了比3-biomarker panel更优越的性能。

基于代谢物构建GC患者的预后模型

接下来，作者收集了181名GC患者的血浆代谢组数据，并收集了他们的临床信息，利用随机森林方法建立了28个代谢物预测模型(28-PM模型)。然后，在测试集上对28-PM模型进行评估，显示出有效的预测能力（AUROC=0.832）。此外，作者发现28种代谢物中的11种可以显著区分测试组患者的总体生存。

总之，基于机器学习的预后模型在预测GC患者的临床预后方面表现出了良好的性能。

为了评估模型的预测能力，作者使用单变量COX回归分析对与预后相关的临床变量进行了筛选，确定TNM分期、病理观察和血栓是临床上与预后显著相关的三个因素。随后，通过使用C指数值作为模型性能指标的比较分析，确定了这三个临床因素中的每一个的预测效果，都不如28-PM模型的预测效果。

考虑到临床指标对预后预测的影响，作者将临床特征的组合纳入28-PM模型中，以评估这是否会增强28-PM模型的预测能力。结果发现将临床特征结合到代谢模型中并没有带来模型性能的实质性改善。

进一步，作者基于28-PM模型将GC患者分为高风险组和低风险组，发现高风险组的无病生存期(DFS)和总生存期(OS)比低风险组差，高风险组的死亡比例更高，而无转移/无复发患者在低风险组中占比更高。这表明28-PM模型成功地识别了需要改进治疗方案的患者。最后，多变量COX回归分析表明，28-PM模型是一个独立的预后因素。

PART 04

研究结论

该研究表明胃癌代谢组学分析和生物标志物识别在早期诊断、预后预测和风险评估方面具有潜在的应用前景。研究揭示了与胃癌进展相关的关键代谢物，为开发准确的诊断模型和预后模型提供了基础。通过利用机器学习算法，提高了对胃癌的诊断和预测效果，超越了传统生物标志物的应用范围。

总的来说，这篇文章的研究成果不仅为进一步探索胃癌的代谢特征和生物标志物提供了重要线索，也为将代谢组学和机器学习应用于临床胃癌诊断和治疗中带来了新的思路和方法。

-广告-

如果大家对生信发文+课题上游生信支撑提升文章水平的方向感兴趣，可以联系我们（扫描下方二维码添加小秘书）。

生信工程师专门对接

个性化分析方案定制

温

馨

提

示

“小张聊科研”团队郑重声明：我公司对外联络的渠道为企业微信及企业邮箱，请大家认准@解颐生物的企业微信，及@joyebio.com的企业邮箱。

阅读推荐：