Nature | 机器学习构建人类血清代谢组参考图谱

撰文 | 陈文强 (哈佛医学院博后)

责编 | 兮

血清代谢组的主要研究对象是血清所含有的各种生物标志物。这些标志物既可是内源生成，也可由环境中摄取，其中部分标志物的来源较为清晰，包括高遗传性的代谢物或可被肠道菌或生活方式 (如吸烟或饮食) 所影响的代谢物，因此，血清代谢组研究对于了解多种疾病具有重要意义。

为更进一步了解血清代谢物的关键决定因素，2020年11月11日，来自以色列Weizmann科学院Eran Segal团队的研究人员在Nature杂志在线发表了题为A reference map of potential determinants for the human serum metabolome的研究论文，使用质谱技术对健康志愿者的血清样品进行了深度鉴定，基于志愿者的宿主遗传学、肠道微生物、临床参数及生活方式等特征，使用机器学习算法对血清样品中一千多种独特代谢物进行预测，从而揭示了主要代谢物的关键决定因素，从而更好地帮助我们了解这些代谢物在不同条件下变化机制，从而制定干预措施。

首先，研究人员对491名健康志愿者的血清样品进行质谱检测，这些志愿者此前的临床参数、生活方式、膳食状况、遗传学及肠道菌特征已被收集。随后，研究人员对1251中代谢物进行了非靶向代谢组分析，这些代谢物包括脂质、氨基酸、外源化合物、碳水化合物、多肽、核苷酸以及其他未识别的化合物。大多数代谢物在不同志愿者体内都广泛存在，其中498种代谢物能在所有样品中能被检测，1104种代谢物能在50%以上的样品中被检测。鉴于475名志愿者的血清样品具有较高质量，因此被用于后续分析。

研究人员使用一种广泛使用的机器学习模型——梯度提升决策树算法 (GBDT)【1】，通过基于可释方差的系统线性模型预测志愿者数据 (图1a-b)。其中，335个代谢物可被饮食相关特征所解释，182个代谢物可被肠道菌相关特征解释，因此该模型对血清代谢物具有较强预测性。随后研究人员检测代谢物是否富集于主要预测因素 (superior prediction)，发现临床数据能更好地预测血脂、氨基酸及多肽等类别的代谢物，而肠道菌数据能更好预测外源化合物及未识别的化合物等类别的代谢物。也就是说，该模型能识别大量未识别化合物的来源 (图1c)。

图1. 饮食、肠道菌、遗传及临床数据可预测大部分血清代谢物水平

研究人员也构建了预测主要代谢物相对预测效度的模型，发现饮食因素具有最强的预测效度，可推测所有特征48.9%的参数 (图2)。值得注意的是，肠道菌数据具有30.8%的较高预测效度，而生活方式仅占1.9%，提示肠道菌数据在预测及决定血清代谢物水平上具有重要意义。

图2. 模型可预测主要代谢物的相对预测效度

基于此，为进一步验证该模型的可靠性及可重复性，研究人员使用两项地域独立的数据集对该模型的准确性进行确认。这两个数据集包括一项来自英国TwinsUK Registry的1004名健康志愿者的样品，以及一项来自IMI DIRECT cohort的北欧2型糖尿病患者的245份血清样品，通过肠道菌数据特征分别获得107个或50个代谢物的预测。对来自TwinsUK的107个预测代谢物中，95个可以得到复制，而来自IMI DIRECT的50个预测代谢物中，50个可以得到复制 (图3)，说明本研究构建的模型可独立于人群及数据库采集方式对血清代谢物和肠道菌之间的关联进行准确预测。

图3. 在两项独立数据集中验证肠道菌对血清代谢物的预测

鉴于此前研究关于饮食调控肠道菌的结论【2】，研究人员比较了饮食或肠道菌对血清代谢物可释方差的预测，发现除了摄取咖啡这一项可同时被饮食及肠道菌预测之外，绝大部分代谢物均可分别被饮食或肠道菌独立预测，提示饮食及肠道菌的模型具备各自独立性，也就是说，肠道菌可独立于饮食因素来调控这些血清代谢物的生成。为推测每个预测的驱动因素，研究人员使用基于博弈理论最优Shapley值的SHAP分析，发现多种饮食及肠道菌特征可强烈预测血清代谢物 (图4)。如图4所示，咖啡摄入可作为比其他饮食特征更强烈的预测因子来预测血清代谢物中大量外源化合物及未识别化学物的水平，这些代谢物包括黄嘌呤代谢途径的7-二甲基黄嘌呤 (paraxanthine)。另一个例子为长期摄入鱼类食物可准确预测多种血脂水平，如一种在慢性肾疾病患者血清中聚集的CMPF (一种尿毒症毒素)，而这种代谢物也被报道可预防及逆转脂肪变性【3】。

图4. 饮食及肠道菌数据可独立解释多种生化因子

除此以外，研究人员也使用该模型揭示了遗传-代谢组的关联，并从概念上验证了临床干预的效度。通过将正常饮食健康志愿者进行随机分组，使其分别摄入全麦面团面包或市售白面包 (图5a)，研究人员随后分别在基线水平及一周干预后检测志愿者的血清代谢物，发现全麦面团面包摄入后，由本研究发现的与全麦面包正相关的标志物显著上升，平均上升1.62倍(图5c)，而与全麦面包负相关的标志物平均改变仅0.66倍，而白面包干预组未检测到显著变化(图5c)。这一实验证实了本研究构建的预测模型可有效预测不同干预措施后的血清代谢物水平改变。

图5. 面包摄入干预后血清代谢物的水平改变能解释模型揭示的代谢物水平改变

总的说来，尽管本文不是检测血清代谢物的大数据研究，但通过关联广泛决定因素，本文提供了一种可揭示循环血代谢物的潜在决定因素的预测模型，其中检测到的许多关联和相互作用均能有效复制此前报告的结论，证明了这个模型的有效性。而本文也检测到了大量的新的血清代谢物的关联及相互作用，能极大地帮助我们了解健康和疾病状态下的分子机制，并帮助我们寻找改变这些血清代谢物水平的新干预措施。

原文链接：

https://doi.org/10.1038/s41586-020-2896-2

制版人：十一

参考文献

1. Ke, G. et al. LightGBM: a highly efficient gradient boosting decision tree. In Advances in Neural Information Processing Systems 30 (eds Guyon, I. et al.) (Neural Information Processing Systems Foundation, 2017).

2. David, L. A. et al. Diet rapidly and reproducibly alters the human gut microbiome. Nature 505, 559–563 (2014).

3. Prentice, K. J. et al. CMPF, a metabolite formed upon prescription omega-3-acid ethylester supplementation, prevents and reverses steatosis. EBioMedicine 27, 200–213 (2018).