Py学习  »  机器学习算法

NC!使用无监督深度学习的癌细胞系多组学数据集的合成增强

作图丫 • 3 月前 • 118 次点击  

最近有小伙伴反映收不到推送,因为公众号改了推送算法,现在需要加星标,多点赞、点在看,才能准时收到推送哦。

导语:整合不同类型的生物数据对于全面了解癌症生物学至关重要,但由于数据的异质性,复杂性和稀疏性,它仍然具有挑战性。


作图丫不仅文章解读的好,课题做得也出色,已与国内多家知名医院的老师和名牌大学实验室达成合作。欢迎有生信分析需求的老师垂询,公共数据库数据挖掘或自测数据分析均可。

欢迎长期合作
联系请扫描下方二维码


背景介绍




今天小编为大家带来的这篇文章,作者引入了一个无监督的深度学习模型,MOSA(多组学合成增强),专门用于整合和增强癌症依赖图(DepMap)。文章发表在《nature communications》上,文章题目为:Synthetic augmentation of cancer cell line multi-omic datasets using unsupervised deep learning。


研究设计




本研究技术路线如图所示。



数据介绍




本研究组装了七个不同的癌细胞系数据集,即基因组,甲基组,转录组,蛋白质组,代谢组,药物反应和CRISPR-Cas9。

结果解析




01
癌症多组学的统一深度生成模型

利用DepMap项目,我们组装了七个不同的癌细胞系数据集,即基因组,甲基组,转录组,蛋白质组,代谢组,药物反应和CRISPR-Cas9基因本质(图1a)。这包括总共1523个癌细胞系,其中至少有两个数据集可用。我们设计了适合癌细胞系多组学数据集的MOSA,进行了稳健的数据扩充,并为生物标记发现提供了模型解释(图1b)。

首先,按照后期集成的方法,我们为每个数据集训练了一个单独的编码器,以导出每个原子层特有的潜在嵌入。然后将这些嵌入连接起来并进一步简化,以形成联合多组元潜在表示(图1c)。这里,潜在表示是在神经网络的隐藏层中学习到的、抽象的特征集(嵌入),它封装了来自输入数据的主要信息。与多组元线性降维方法MOFA和另一种基于VAE的方法MOVE32相比,我们的模型在多组元潜在空间中通过组织提供了更好的细胞系分离(图1c)。

图 1
第二,基因组学由于其数据的稀疏性和定性性质而呈现出独特的挑战。为了解决这个问题,我们只使用癌症驱动事件,并将基因组学分为拷贝数改变和突变。虽然拷贝数事件通过类似于其他组学的单独的编码器/解码器被整合为有序数据,但是突变被整合为每个编码器的二元条件(图1b)。基本原理是,遗传背景影响细胞轮廓和表型,从而调节其他原子层。条件矩阵包含癌症驱动基因(包括基因融合)、来源细胞系组织、细胞系生长率测量和微卫星不稳定性信息(MSI高)的遗传改变,共237个条件变量。该条件矩阵被进一步连接到学习的多原子联合潜在空间,该潜在空间作为解码器的输入。因此,遗传背景和细胞信息对于产生潜在的表现和重建每个组学数据集是至关重要的。
第三,与单细胞数据的类似模型相比,DepMap中可用的组学的有限样本数和异质性对训练癌细胞系的可概括模型提出了重大挑战。为了降低模型的复杂性,MOSA只考虑最易变的特征作为编码器的输入,而所有特征都由解码器重构以生成合成数据,这导致了VAE的不对称设计(图1b)。MOSA的这种独特设计允许我们丢弃低信息量的特征,例如在所有癌细胞系中恒定表达的基因和非必需基因。这将可训练参数的数量减少了39.2%,同时保持了低重建误差。
第四,多组学数据集的不同大小可能导致一些数据集在训练期间占主导地位,降低了模型的概括能力和解释能力。我们开发了一个完整的omic(视图)缺失层,它基于一个超参数来屏蔽一个完整的omic层。这在模型的一般化方面提供了显著的改进,通过特定组学为癌细胞系提供了更好的重建(图1b)。然后,我们通过计算所有组学输入特征的SHAP值进行多组学模型解释,以评估它们对于潜在空间整合和组学特征重建的重要性(见方法)。这为探索潜在的非线性癌症基因型表型关联提供了系统的资源。
总之,MOSA提供了一个无监督的模型,同时整合了所有癌细胞系组学。使用10倍交叉验证策略,CRISPR-Cas9和药物反应的MOSA重建坚持倍数与原始数据稳健相关(平均特征Pearson’s r分别为0.35和0.65)(图2a)。与旨在使用核心组学(例如,基因组学、转录组学)、仅基因组学或仅功能相关基因预测每个CRISPR-Cas9基因依赖性的类似系统监督分析相比,MOSA表现更好(平均特征最佳皮尔逊r = 0.25)。
图 2
02
多组学综合数据生成的评价

多组学垂直整合和无监督深度生成模型的一个显著优势是它们能够综合生成特定样品中缺失的数据集,例如重建对于某些细胞系完全缺失的数据集。

考虑到普遍存在的数据集缺口,这一点尤其重要,即使在诸如癌细胞系的良好表征的模型中也是如此(图1a)。多组学分析既昂贵又耗费人力,因此数据驱动的生成模型是优先设计最具信息性的实验的关键。然而,基准生成模型是具有挑战性的,因为它需要独立的,理想情况下是大规模的数据集来验证模型的预测。我们最初测试了16种多组学整合方法,但由于受支持的组学数量、数据分布类型以及设计和实施的限制,我们缩小到三种最先进的方法:MOFA、MOVE和mixOmics。这些方法,包括线性的、基于VAE的和相关性分析方法,能够整合这里考虑的所有七个组学数据集。我们在随后的章节中描绘了一系列的基准,以增加模型的复杂性。

MOSA通过利用从原始数据中学习到的多原子潜在空间来重建输入数据矩阵。数据重建生成完整的组学矩阵,从而处理两种缺失值(部分数据集扩充),更重要的是,通过垂直整合重建整体组学(全部数据集扩充)(本研究中要考虑的细胞系至少需要两个组学)。对于部分数据集扩充,MOSA估算了不完整的特征,例如,由于基于质谱的蛋白质组学数据中常见的技术限制,某些蛋白质的测量值很稀疏。一个在模型训练中完全不存在的最近的独立药物反应数据集被精确重建(IC50s,Pearson的r = 0.87,n = 32,659)(图2b),优于MOFA,MOVE和朴素均值插补(图2c–e)。MOSA的重建和原始数据集之间的明显差异揭示了可能不准确的实验测量。
随后,评估了完整的数据集扩充。由MOSA为缺乏蛋白质组测量的癌细胞系产生的合成蛋白质组数据显示了与独立蛋白质组测量的相关性,与具有实际蛋白质组数据的细胞系的相关性相当(图3a)。对于药物反应,107种重叠药物的重建与独立数据集(CTD241,42)中的测量值密切相关(图3b)。最后,我们使用独立处理的转录组学进行了类似的分析,其中包括在MOSA26训练期间没有转录组学数据的272个癌细胞系的数据。
我们通过比较原始数据矩阵和扩充数据矩阵来评估下游分析。MOSA将CRISPR-Cas9细胞系筛选的数量增加了34.9%,增强的数据集提高了发现遗传关联的统计能力(图3c,补充数据8)。可用于鉴定选择性癌症易感性的基因重要性特异性(Fisher's skewness test)显示了合成的CRISPR-Cas9筛选的细胞系和先前可用的筛选之间的中度正相关(Pearson's r = 0.52)(图3d)。然而,由于潜在的异常非必需基因的存在,这种相关性可能被低估了。MOSA精确地重建了基因依赖性,例如,BRAF功能获得突变癌细胞系中的BRAF依赖性(图3e),以及携带FLI1EWSR1融合基因的细胞系中的FLI1依赖性(图3f)。
图 3

小编总结




利用正交多组学信息,该模型成功生成了分子和表型谱,导致多组学谱的数量增加了32.7%,从而生成了1523个癌细胞系的完整DepMap。综合增强的数据增加了统计能力,揭示了较少研究的与耐药性相关的机制,并改进了遗传关联的识别和癌细胞系的聚类。通过应用沙普利附加解释(SHAP)进行模型解释,MOSA揭示了与药物和基因依赖性相关的细胞聚类和生物标志物识别所必需的多组学特征。这种理解对于制定急需的有效策略来优先考虑癌症靶点至关重要。


往期推荐


分析专辑


单细胞scRNA | R包绘图 | 免疫浸润分析 | 肿瘤纯度评估工具 |  数据库


文章解读专辑


多区域进化文章精读 | 高分文章精读 | 免疫微环境文献解读


招聘信息


招聘


点击红字即可进入专栏!


码字不易,欢迎读者分享或转发到朋友圈,任何公众号或其他媒体未经许可不得私自转载或抄袭。
由于微信平台算法改版,公众号内容将不再以时间排序展示,建议设置“作图丫”公众号为星标,防止丢失。星标具体步骤为:
(1)点击页面最上方“作图丫”,进入公众号主页;
(2)点击右上角的小点点,在弹出界面选择“设为星标”即可。


点个在看你最好看


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/179658
 
118 次点击