社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

6+单细胞空转+机器学习,这才是解题思路,没学会的建议反复观看!!

生信分析手册 • 2 周前 • 25 次点击  

导语

今天给同学们分享一篇生信文章“Spatial transcriptome reveals histology-correlated immune signature learnt by deep learning attention mechanism on H&E-stained images for ovarian cancer prognosis.”,这篇文章发表在J Transl Med期刊上,影响因子为6.1。


结果:


五重交叉验证过程的训练、验证和测试过程
H&E 染色的 HGSOC 肿瘤切片的 WSI 从 TCGA 下载。使用 III 期或 IV 期癌症患者的 OS 数据来训练模型(OS 持续时间≥ 36 个月的患者目标 = 1;OS 持续时间< 36 个月的患者目标 = 0)。为了获得训练所需的准确 OS 持续时间并简化训练过程,本研究选择了来自 TCGA 的未经审查的患者(来自 773 名患者的 335 张图像)。将 335 名患者的 773 张图像随机分为用于五重交叉验证过程的训练和验证数据集以及方法中所述的测试数据集。训练、验证和测试 TCGA 图像的元数据。为了考虑到训练过程的随机性,并选择最佳模型,每个折叠进行了 5 次训练,每个折叠有 10 个 epoch。对于每个折叠,选择具有最佳 AUROC 的模型,如使用验证数据集评估的那样。最终基于 H&E 的生存评分是根据 5 次折叠中选择的 5 个模型的平均分数计算得出的。然后使用 TCGA 训练数据集、 TCGA 测试数据集和 MD Anderson 癌症中心测试数据集评估基于 H&E 的生存评分以及患者年龄,以预测预后。

使用 TCGA 数据评估深度学习模型
使用五重交叉验证过程训练模型后,使用验证图像获得的每个折叠的最佳 AUROC 值为 0.705 、 0.687 、 0.628 、 0.703 和 0.759 。首先,对于训练/验证和测试数据集中的患者,作者评估了诊断年龄和基于 H&E 的生存评分对 OS 和 PFS 持续时间的影响。

使用 Kaplan-Meier 曲线和对数秩检验评估患者诊断年龄和基于 H&E 的生存评分对生存的影响(图 .2 )。对于训练/验证数据集中的患者,诊断年龄对 OS 和 PFS 持续时间都没有预后(图  2 a,OS,p 值 = 0.169; 图 c,PFS,p 值 = 0.1303),但测试数据集中的患者预后良好(图  2 e,OS,p 值 = 0.0009; 2  图 g,PFS,p 值 = 0.0108)。 2  训练和验证数据集中,来自训练模型的基于 H&E 的生存评分对患者的预后均有显著意义(图  2 b,OS,p 值 < 0.0001;图 d,PFS,p 值 = 0.0032)和测试数据集中的那些(图  2 f,OS,p 值 = 0.0045; 2  图 h,PFS,p 值 = 0.0048)。 
Kaplan-Meier 曲线表明深度学习模型对 HGSOC 患者的 OS 和 PFS 持续时间有预后

作者还评估了该模型是否根据其他众所周知的预后协变量(例如减瘤状态)预测患者预后。作者证明,该模型预测不太理想的减瘤(> 10 mm 残留肿瘤) 患者的 AUROC 为 0.52 (数据未显示)。这表明该模型没有根据减瘤状态预测患者的预后。

比较 HGSOC 患者诊断年龄的预后值以及基于 H&E 的 OS 和 PFS 持续时间评分。显示了 TCGA 训练/验证数据集(a、b,用于 OS;c、d,用于 PFS)和测试数据集(e、f,用于 OS;g、h,用于 PFS)的 Kaplan-Meier 曲线和对数秩测试结果。面板显示诊断年龄的结果 (a、c、e、g) 和预测的基于 H&E 的生存评分 (b、d、f、h)。缩写:H&E、苏木精和伊红;HGSOC,晚期、高级别、浆液性卵巢癌;OS,总生存期;PFS,无进展生存期;TCGA,癌症基因组图谱。

使用 MDACC 数据集评估模型
由 42 名 HGSOC 患者组成的 MDACC 数据集用于进一步评估深度学习模型,其患者特征。从福尔马林固定、石蜡包埋的卵巢肿瘤块制备的初治患者肿瘤块制备的 H&E 载玻片中扫描 H&E 染色患者肿瘤的图像。与 TCGA 数据集一样,MDACC 数据集用于评估深度学习模型。AUROC 、 Kaplan-Meier 曲线和对数秩检验用于将输出评分与患者的 5 年 OS 持续时间相关联。

使用 AUROC 方法,作者确定了模型预测 5 年总生存期患者的性能。五重模型的 AUROC 结果为 0.720、0.686、0.711、0.736 和 0.707,平均 5 个分数后的 AUROC 值为 0.73,这表明该模型可以预测 MDACC 卵巢癌患者的预后。显示 Kaplan-Meier 曲线 (图  3 b),其中最显著的对数秩测试结果 (p 值 = 0.0047),临界值为 0.448。
使用 MDACC 测试数据集评估深度学习模型

作者还评估了有或没有 I-II 期患者的模型的性能,并获得了类似的结果(数据未显示),表明该模型没有根据与图像相关的分期信息预测预后。
预测从 MDACC 肿瘤库获得的 H&E 染色肿瘤切片图像,用于基于 H&E 的生存评分。使用 AUROC (a) 评估预测的基于 H&E 的生存评分,用于 5 年生存预测,并使用 Kaplan-Meier 曲线和对数秩检验 (b) 评估 OS 持续时间。缩写:H&E、苏木精和伊红;MDACC,德克萨斯大学 MD 安德森癌症中心;OS,总生存期。

深度学习模型的注意力机制强调的图像特征
如前所述,在 WSI 上训练的模型具有注意力机制;这种机制可以提高深度学习模型的准确性,大大增强其可解释性,帮助研究人员更好地了解其决策,并强调用于通过癌细胞和肿瘤微环境确定疾病进展的机制。然而,在病理图像中学到的注意力特征通常是无法解释的。因此,作者采用空间转录组来去卷积注意力特征。

提取注意力模块 2 的输出并与原始图像叠加以形成密度图。红色和蓝色分别表示对模型决策重要性较高和较低的区域。值得注意的是,在训练和测试图像中,红色区域主要落在肿瘤组织上,而不是空白区域。这表明该模型经过了良好的训练,并使用肿瘤区域的特征进行了预测。值得注意的是,在关注信号高的区域观察到免疫浸润。然后,作者询问了注意力信号和免疫特征之间的相关性。
深度学习模型的注意力机制强调的图像特征

该模型的可解释性通过使用注意力机制检查(a) TCGA 训练和验证的区域强度,(b) TCGA 测试和 (c) 本研究中使用的 MDACC H&E 染色肿瘤图像,红色箭头突出显示免疫细胞浸润。缩写:H&E、苏木精和伊红;MDACC,德克萨斯大学 MD 安德森癌症中心;TCGA,癌症基因组图谱。

免疫特征富集分析揭示了注意力信号与免疫活动之间的相关性
为了探索模型学习的特征可以预测患者样本预后的潜在机制,作者进行了通路富集分析,以评估基于低和高 H&E 生存评分的 TCGA 检测样本之间的不同免疫通路激活。通过使用来自 cBioportal、GSEApy 和分子特征数据库 (MSigDB) [ 31 – 33 ] 的基因表达数据,使用 c7 免疫途径基因集集合对测试 TCGA 数据集进行了通路富集分析。如果样本的分数高于预测的基于 H&E 的生存评分的中位数,则首先将其标记为高。然后使用 GSEA 测试比较两组之间的 c7 免疫特征,并选择最重要的特征进行进一步分析,显示了 9 个显著特征的富集分数(图5 a)。顶部签名GSE37416_0H_VS_48H_F_TULARENSIS_LVS_NEUTROPHIL_UP(图  5 b)进一步验证了它与注意力信号的关系。

GSE37416_0H_VS_48H_F_TULARENSIS_LVS_NEUTROPHIL_UP 免疫特征基因的热图。采用从 10X 基因组下载的卵巢癌 FFPE 样本的空间转录组数据来研究注意力信号与免疫特征之间的关系。 使用 ssGSEA 法确定的样本中每个点的富集分数,并将从空间透射样本的整个 H&E 图像中检测到的注意力信号整合为样本的空间预后信息(图 c),  5 通过 Spearman 相关性检验确定它们的相关性。作者专注于肿瘤细胞簇区域,因为这些区域应该有更多的预后信息。结果显示,两个卵巢癌空间转录组样本的肿瘤区域的关注信号(图  5 d 和 e) 与富集评分显著相关 (R = 0.31/0.24,P 值 = 1.385e-56/1.21e-15)。这表明该模型通过检测特定类型的免疫活动来预测卵巢癌患者的预后。
免疫特征富集分析揭示了注意力信号与免疫活动之间的相关性

使用来自 MSigDB 的 GSEApy 和 c7 免疫学特征基因集 (n = 5219) 对基于 H&E 的低和高生存评分的测试样本进行通路富集分析。最显著富集的重要基因集与前 3 个最显著特征突出显示 (a)。突出显示的途径的统计结果 GSE37416_0H_VS_48H_F_TULARENSIS_LVS_NEUTROPHIL_UP (b)。从 10X 基因组学中下载两个空间转录组卵巢癌 FFPE 样本的特征 GSE37416_0H_VS_48H_F_TULARENSIS_LVS_NEUTROPHIL_UP 的注意力信号整合和 GSVA 富集评分。显示了注意力信号和空间转录组整合的示例 (c),并显示了富集分数与肿瘤细胞区域注意力信号的自然对数与空间 FFPE 样本 (d, e) 的相关性。

总结

总之,作者使用 HGSOC 患者 H&E 染色肿瘤切片的 WSI 训练、验证和测试了一种具有注意力机制的新型深度学习模型。随着空间转录组学等空间组学平台的进步 [ 43 ],基于 H&E 的预测模型可以与这些平台集成,以生成具有更高性能的预测模型,并深入了解肿瘤组织中免疫学特征与疾病恶性表型相关的形态学和免疫学机制。需要通过使用来自更多不同患者的整个数据集训练和评估完整模型来进一步研究该模型的临床应用。对这篇文章感兴趣的老师,欢迎扫码咨询!


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182901
 
25 次点击