Py学习  »  机器学习算法

NBT | 利用深度学习模型VAE挖掘药物-多组学数据间的关联

BioArt • 1 年前 • 187 次点击  

撰文|617
过去一系列的研究已经证明了利用多组学表型数据不仅可以帮助我们揭示疾病特征,而且有助于精准医学的发展——帮助我们揭示个体层面的疾病特征信息和患者对疾病治疗的个体化反应。然而,多组学数据和表型数据的规模和异质性使得数据整合、清洗等成为一项非常艰巨的任务,也为数据挖掘带来了一定的挑战【1-2】

为解决这一问题,2023年1月2日,哥本哈根大学Søren BrunakSimon Rasmussen团队以及IMI DIRECT联盟在Nature Biotechnology杂志上发表了文章Discovery of drug–omics associations in type 2 diabetes with generative deep-learning models开发了一个基于深度学习的框架MOVE(multi-omics variational autoencoders)并且将这一方法应用于789名新诊断的2型糖尿病患者的多组学表型数据,以探究药物与组学表型间的关系。结果表明MOVE能够有效整合处理多组学和表型数据,并能更灵敏地挖掘出药物-组学间的关联。


此前,作者尝试将生成模型变分自编码器(VAE)用于宏基因组数据的组装【3】。此外,还有许多其他研究者将生成模型用于单细胞转录组数据和人类人工染色体等分析【4-5】。基于生成模型表现出的良好效果,因此,在该研究中作者继续选择使用VAE来开发适用于处理多组学数据的MOVE。

作者利用了来自DIRECT联盟的789名2型糖尿病患者的多组学表型数据建立VAE模型,涉及的数据包括基因组、转录组、蛋白质组、代谢组、微生物组、用药信息、饮食调查问卷和临床信息等。数据类型包括连续型数据和分类型数据,并且组学和表型数据均存在不同程度的数据缺失问题。作者将数据分为训练集和测试集,以确定最优超参数,并评估了模型重建数据的能力和稳定性。结果表明,VAE模型可以准确重建个体的数据。

进一步对构建的VAE模型进行分析,作者发现在编码器中具有较高神经网络权重值的特征主要来自于临床和饮食信息。接着,作者探究了特征差异是如何区分不同个体的。以胰岛素敏感性Matsuda指数为例,作者发现,基于kNN回归算法结果,相比PCA等,VAE模型隐层的预测能力更佳。这一结果表明,VAE模型隐层空间捕捉到的临床信号难以利用PCA等方法来识别鉴定,体现出该方法的优越性。

同时,该模型没有出现任何强烈的局部缺失效应。此外,作者还利用kNN分类算法探究了性别和招募中心对隐层结构的影响,发现当不对这些混杂因素进行校正时,对准确性的影响比校正时更大。因此,上述结果表明,作者建立的VAE模型具有整合不同类型数据的能力,但是大量的混杂因素会影响模型的表现。

随后,作者探究了这一模型是否能够学习到临床信息、药物和多组学数据之间的关联。作者采用了一种扰动输入特征的方法。举例来说,为确定某一特定药物与其他特征间的关联,其模拟给每一个未接受该药物的个体服用该药物。接着,作者排除了服用这一特定药物和药物分类系统ATC中与特定药物相同分类的个体。然后评估每个特征的重建数值与原始数值间是否存在显著差异。

同时,为了确认显著性,作者开发了两种检验方法来检验多次模型的结果。第一种检验方法是基于t检验和Bonferroni校正(MOVE t检验),另一种方法则是利用了贝叶斯决策理论(Move Bayes)结果表明,与传统的t检验和ANOVA相比,MOVE t检验和MOVE Bayes在识别药物-组学关联方面表现更佳。

图.基于深度学习模型的框架MOVE

随后,作者将MOVE应用于2型糖尿病患者的数据,MOVE t检验和MOVE Bayes分别发现了3143个和764个组学-临床特征之间的关联,其中有573个关系在两种方法中都被鉴定到,而使用传统方法(t检验和ANOVA)仅鉴定到184个。MOVE发现的显著性关系普遍存在于所有的药物,不止是大部分人使用的药物(如二甲双胍),体现出该方法对使用普遍性较低的药物的敏感性。

同时结果表明,药物与临床数据和代谢组学有较多的关联。而与其他组学相比,肠道微生物组与药物的关联数量较少,这表明药物对机体的影响不止于肠道微生物组,而是多维度、多方面的,因此未来在探究药物效应时,应该考虑多个组学此外,结合疾病亚型情况,作者还发现其中有6.5%的关联是与疾病亚型有关的。

进一步作者查看了药物和其他数据之间的关联,结果发现,二甲双胍与2型糖尿病的12个临床标志物显著关联,与7个蛋白显著相关,包括2个可能与免疫系统相关的蛋白(ERAP2和CD40L)。另外,在非靶代谢组数据中,二甲双胍是与代谢物关联最多的药物,提示二甲双胍可能存在某些新的代谢效应物。作者还查看了与微生物组有关联的药物,结果表明,在这一数据集中仅发现二甲双胍和奥美拉唑与微生物组之间有显著关联。

接着,作者查看了两种他汀类药物——辛伐他汀和阿托伐他汀的关联情况。结果表明,两种药物均与低密度脂蛋白和总胆固醇水平有关。不过,当探究这两种药物与组学之间的关联时,结果显示,这两种药物对转录组、蛋白质组、代谢组等组学数据的影响不同。

然后,作者根据药物与其他数据间的关联,对药物进行了分类,获得了4大类。每类中包含3-6种药物,并且某些类别种的药物可能与多药联用有关。进一步的分析表明,不同药物的相似性与服用这两种药物的个体存在相关性,说明是由于联合服药导致了药物间更高的相似性。还有一部分的相似性是由于患者群体的重叠性等原因造成的,比如某些糖尿病患者还患有心血管疾病,因此会服用相关药物。

最后,作者还探究了不同药物对多组学数据的影响力度。结果表明,二甲双胍和奥美拉唑对多组学数据的影响最明显,阿托伐他汀和辛伐他汀在20种药物中排名14和20。这表明二甲双胍和奥美拉唑具有较强的系统效应。

综上该研究提供了一种新的基于深度学习模型VAE的方法MOVE来帮助我们处理多组学数据并探究不同组学间的关联。尽管在该研究中,作者主要使用了MOVE探究了药物和其他数据间的关联,但是实际上该方法可用于多种不同组学数据间关联的挖掘。因此,该方法或可帮助我们挖掘组学间的新关联,发现新的潜在生物标志物,甚至发掘新的病因和致病机制。

原文链接:

https://doi.org/10.1038/s41587-022-01520-x


制版人:十一



参考文献


1. Picard, M., Scott-Boyer, M.-P., Bodein, A., Périn, O. & Droit, A. Integration strategies of multi-omics data for machine learning analysis. Comput. Struct. Biotechnol. J. 19, 3735–3746 (2021).
2. Nicora, G., Vitali, F., Dagliati, A., Geifman, N. & Bellazzi, R. Integrated multi-omics analyses in oncology: a review of machine learning methods and tools. Front. Oncol. 10, 1030 (2020).
3. Nissen, J. N. et al. Improved metagenome binning and assembly using deep variational autoencoders. Nat. Biotechnol. 39, 555–560 (2021).
4. Yelmen, B. et al. Creating artificial human genomes using generative neural networks. PLoS Genet. 17, e1009303 (2021).
5. Lopez, R., Regier, J., Cole, M. B., Jordan, M. I. & Yosef, N. Deep generative modeling for single-cell transcriptomics. Nat. Methods 15, 1053–1058 (2018).

转载须知

【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/151202
 
187 次点击