Py学习  »  机器学习算法

4+衰老+分型+机器学习+实验,由热点开展分型的经典思路,快来学习!

生信分析手册 • 5 月前 • 121 次点击  

导语

今天给同学们分享一篇生信文章“Role of Aging in Ulcerative Colitis Pathogenesis: A Focus on ETS1 as a Promising Biomarker”,这篇文章发表在J Inflamm Res期刊上,影响因子为4.2。


结果:


UC与正常样品中DEG的鉴定
去除批次效应后,两个数据集中的样本均匀分散,表明获得了可靠的结果(图1A)。在三个数据库中总共鉴定了1025个共有的UC相关基因(图1B)。此外,Limma用于表征UC与正常样品中的DEG,并筛选了2786个DEG,其中1624个上调基因和1162个下调基因(图1C)。排名前30位的DEG(按|log 2 FC|)显示在热图中(图1D)。随后,为了探索衰老在UC病理学中的意义,作者进行了Venn分析以整合DEG、UC和ARG,并最终确定了95个DE ARG用于进一步分析(图1 E)。此外,GSVA显示UC样品中JAK/STAT信号传导途径的异常活化(P< 0.0001,图1F)。JAK/STAT信号通路在免疫和炎症反应的调节中起着至关重要的作用。34最新的研究已经确定了UC患者上皮中独特的炎症相关细胞状态,主要归因于JAK/STAT途径激活。这与作者的发现是一致的。
Figure 1

UC和正常样本中免疫细胞浸润的分析
考虑到UC的特征在于免疫紊乱,作者采用CIBERSORT算法分析来自训练集的样本中的22种细胞类型。如图2A所示,浆细胞、M2巨噬细胞和静息肥大细胞在正常和UC样本中占浸润比例较高。值得注意的是,UC和正常样品具有明显不同的免疫谱。在两组中观察到14种不同的免疫细胞类型(图2B)。例如,与正常对照相比,UC样本中记忆B细胞、M1巨噬细胞和活化树突状细胞的丰度水平明显增加,而M2巨噬细胞和静息肥大细胞的水平降低。这些细胞浸润的水平已被证实在UC患者和正常个体之间显著不同。
Figure 2

UC两种衰老相关亚型的筛选
为了全面了解UC中ARG的表达模式,作者使用了基于95个DE-ARG表达的一致性聚类算法。CDF曲线显示,当k = 2时,曲线具有较低的斜率,表明聚类结果是可靠的(图3A)。因此,整个队列被分为两个衰老相关亚型(图3B)。PCA进一步证实,可以清楚地区分两种亚型(图3C)。接下来,为了研究ARG在免疫微环境中的作用,使用CIBERSORT算法分析了两种亚型中免疫细胞的浸润水平。正如预期的那样,两种亚型显示出不同的免疫浸润模式。作者还观察到浆细胞和M2巨噬细胞在两种亚型中占主导地位(图3D)。11种免疫细胞在亚型1和2之间表现出显著不同的丰度水平(图3E)。其中,亚型1的浆细胞、CD 8 T细胞、M2巨噬细胞和静息肥大细胞水平升高,而亚型2的记忆B细胞、活化树突状细胞和中性粒细胞水平升高。此外,GSVA揭示了亚型2中JAK/STAT信号传导途径的显著富集(图3F)。此外,差异表达分析确定了亚型1和2中的1443个DEG(606个上调和837个下调)。火山图显示所有DEG的分布,热图显示前30个DEG(图3G和H)。
Figure 3

通过WGCNA识别关键模块
作者使用WGCNA来识别与这些亚型相关的核心模块。当软阈值为6时,生物网络达到无标度,连通性趋于平滑;因此,它是最佳阈值(图4A)。图4 B中示出了所有样品的聚类树图。检测到与亚型相关的十三个亚型,其中蓝色和洋红模块与分子亚型具有最强的关联(图4C)。蓝色表示与亚型1负相关(r =-0.7,P= 3e-25),而洋红色表示与亚型1正相关(r = 0.6,P= 7 e-17)。之后,维恩图揭示了WGCNA、亚型中的DEG和用于后续探索的DE-ARG中的54个重叠基因(图4D)。
Figure 4

UC诊断性生物标志物的筛选
利用两种机器学习算法,对UC的特征基因进行了识别。LASSO分析确定了9个关键变量,基因收缩趋于稳定(图5A和B)。随机森林模型筛选了21个基因,对应于最高的准确率(图5C)。图5D显示了基于MeanDecreaseGini的随机森林模型中重要基因贡献的排名。通过整合这两种算法鉴定了七种共有的生物标志物(CD34、CXCL1、ETS1、IL1RN、IL7R、TIMP1和VCAM 1)(图5E)。随着复杂生物模型的发展,单一生物标志物用于临床诊断的有效性逐渐受到限制。因此,作者建立了基于这七个生物标志物的多变量logistic回归模型。结合两个变量(ETS1和IL7R)的模型表现出令人满意的准确性,上级其他组合。在训练组、GSE 169568验证组和GSE 94648验证组中,AUC值分别为0.96、0.817和0.882(图5F和G)。AUC在0.8和1.0之间被认为是测试的总体诊断准确性的极好。因此,该模型对于UC诊断是可靠和准确的。
Figure 5

两个诊断基因与生物学特性的相关性分析
作者进一步观察了模型中的基因与差异免疫细胞或JAK/STAT信号通路活性之间的联系。结果显示,ETS 1和IL 7 R与活化的树突状细胞、嗜中性粒细胞、活化的记忆CD 4 T细胞、记忆B细胞和M0巨噬细胞正相关(红线表示正相关),但与静息肥大细胞、M2巨噬细胞和CD 8 T细胞负相关(蓝线表示负相关;图6A)。此外,两种诊断基因的表达增加显著促进JAK/STAT信号传导途径的活性(对于ETS 1,R = 0.75;对于IL 7 R,R = 0.76;P<0.05;图6 B和C)。总之,这两种生物标志物可能通过调节免疫细胞浸润和调节JAK/STAT信号通路,从而影响结肠中的炎症反应,在UC发病机制中发挥作用。
Figure 6

实验性结肠炎中Hub基因表达水平的确认
为了证实生物信息学分析的结果,作者在小鼠中建立了DSS诱导的UC模型。与对照组相比,模型组中小鼠的体重随着治疗时间的增加而显著降低(图7A)。在此期间,模型组中小鼠的DAI评分持续升高(图7B)。作者还观察到,施用DSS溶液的小鼠在第4天开始表现出诸如抑郁、深色皮毛和持续腹泻的特征。此外,在第7天,在模型小鼠的肛门周围观察到出血和软便(图7C)。进一步评价显示,模型组小鼠结肠长度明显缩短,肠粘膜出现糜烂、充血和水肿(图7D和E)。同时,模型组小鼠的CMDI评分显著高于对照组小鼠(图7E)。这些变化直观地表明了小鼠中UC的发展,证明UC模型成功构建。38通过qRT-PCR测定这两种基因的表达水平。结果显示,模型组大鼠脑组织中ETS 1 mRNA水平明显高于对照组。尽管IL-7 R表达在模型组中倾向于下降,但其与UC发生不显著相关(图7 F)。
Figure 7

总结

UC样本分为两个亚型(1和2),其在免疫景观和JAK/STAT信号通路中显示出显著差异。采用一系列机器学习算法筛选出ETS 1和IL 7 R两个特征基因建立诊断模型,取得了较好的诊断效果。此外,这些枢纽基因与特异性免疫细胞(如中性粒细胞、记忆B细胞和M2巨噬细胞)的浸润以及JAK/STAT途径密切相关。后来,实验验证证实,在UC小鼠模型中,ETS 1表达显著增加。对这篇文章感兴趣的老师,欢迎扫码咨询!


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/180033
 
121 次点击