社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

4+WGCNA+机器学习+ROC+实验验证,容易拿分的思路,轻松简单好复现!!!

生信分析手册 • 1 月前 • 71 次点击  

导语

今天给同学们分享一篇生信文章“Combined Analysis of Human and Experimental Rat Samples Identified Biomarkers for Ischemic Stroke ”,这篇文章发表在Mol Neurobiol 期刊上,影响因子为4.3 。

 
结果:

差异表达基因(DEGs)和差异表达 miRNA(DEMs)的鉴定
每个数据集在预处理后获得了表达矩阵,包括背景校正和标准化。训练集包括四个 mRNA(GSE36010 、 GSE78731 、 GSE61616 和 GSE106931 )和一个 miRNA( GSE46266 )的表达谱。然后,在消除批次效应后,将四个 mRNA 数据集合并。从 46 个样本(21 个 MCAO 样本与 25 个对照样本)中获得了 7684 个基因的合并表达矩阵。通过差异表达分析,共获得了 780 个 DEGs。此外,从 GSE46266 中鉴定出 56 个 DEMs。DEGs 和 DEMs 的整体分布已通过火山图(图 1 a 和 1b)进行可视化。


在 MCAO 模型大鼠脑中鉴定差异表达的 mRNA(DEGs)和 miRNA(DEMs)。a 显示 MCAO 组与对照组之间 DEGs 的火山图。bGSE46266 数据集 DEM 的火山图。在 a 和 b 中,红色点表示上调,蓝色点表示下调,灰色点表示两组间无差异表达

基因集富集分析(GSEA)
进行了 GSEA 分析,以初步了解训练集中所有 7684 个基因的主要作用。结果表明,这些基因中富集程度最高的五个生物学过程(BP)术语包括白细胞增殖、B 细胞激活、共生相互作用、突触可塑性、运动正调控和突触可塑性调控(图2 a)。此外,涉及的五个京都基因与基因组百科全书(KEGG)通路包括细胞周期、造血细胞谱系、系统性红斑狼疮、细胞因子-细胞因子受体相互作用和原发性免疫缺陷(图 2 b)。前五项在脊线图中展示(图 2 c 和 2d)。这些项目与免疫炎症反应和神经可塑性相关。调整 P 值小于 0.05 且标准化富集得分(NES)绝对值大于 1 的 GSEA 结果在呈现。


基因集富集分析(GSEA)的结果。a 三个代表性生物学过程(BPs)。b 三个代表性京都基因与基因组百科全书(KEGG)通路。c 等高线图显示了 BPs 前五个基因集的富集结果。d 等高线图显示了 KEGG 通路前五个基因集的富集结果
识别与 IS 相关的 WGCNA 模块基因

WGCNA 被用于在综合数据集中识别与缺血性卒中(IS)密切相关基因簇。作者发现,在计算后当软阈值设为 22 时,拓扑网络的尺度独立性达到 0.85,并且邻接矩阵的平均连通性获得相对较高的值(图 3 a)。此外,作者使用层次树算法识别出五个共表达基因模块(图 3 b)。通过相关性分析将模块与疾病状态特征关联后,作者发现青色模块与 IS 的绝对相关性最高(图 3 c)。图 3 d 展示了青色模块成员与基因重要性的相关性分析,以及青色模块中 2157 个基因的相关系数;该图还显示 IS 基因的重要性为 0.69(P < 1e − 200)。


加权基因共表达网络分析。a 对不同软阈值功率的网络拓扑分析。b 基因的层次树算法。基因层次聚类树显示了网络和五个已识别的模块。c 模块-特征关联的热图。d 蓝绿色模块中模块成员与 IS 基因显著性的散点图

探索 DEM 的靶基因
总共,miRWalk 数据库预测了 10,849 个靶 mRNA 与上述 56 个 DEM 中的 14 个有结合位点。在这 14 个 DEM 中,8 个上调,6 个下调。作者将这些 10,849 个基因与 780 个 DEG 和 2157 个蓝绿色模块基因进行交集,保留 354 个交集基因作为与 IS 相关的关键基因进行进一步分析(图 4 a)。随后,这些 354 个交集基因用于构建 miRNA-mRNA 子网络(图 4 b 和 4c )。


探索与缺血性中风相关的关键基因。a 差异表达 mRNA(DEGs)、青绿色模块基因和差异表达 miRNA 靶 mRNA 的交集的维恩图。b 上调 DEM 的 miRNA‒mRNA 亚网络。c 下调 DEM 的 miRNA‒mRNA 亚网络

功能富集分析
对 354 个交集基因进行了功能富集分析。BP 术语包括白细胞介导的免疫、白细胞活性的正向调控、适应性免疫反应、白细胞迁移以及参与不平衡免疫反应的白细胞激活。在细胞组分(CCs)方面,主要富集在外侧质膜、膜筏、膜微结构、细胞外基质、外部包被结构等。在分子功能(MF)术语方面,基因显著富集在细胞粘附分子结合、细胞因子受体结合、激酶调节活性、整合素结合、免疫受体活性等。前 10 项在星形条形图中显示(图5 a–5c)。富集的 KEGG 术语包括病毒蛋白与细胞因子和细胞因子受体的相互作用、NF-κB 信号通路、脂质与动脉粥样硬化、细胞因子-细胞因子受体相互作用。前 10 个 KEGG 通路在气泡图中显示(图 5 d)。 功能富集分析的大部分结果与免疫和炎症反应相关。


基因本体(GO)和京都基因与基因组百科全书(KEGG)功能富集分析。a–c GO 功能富集分析结果的前 10 个术语,包括生物学过程、细胞组分和分子功能。d KEGG 通路分析的前 10 个结果

IS 生物标志物的筛选和诊断性能
为识别与缺血性卒中(IS)相关的特征基因,LASSO 回归分析从 354 个交集基因中筛选出六个基因进行后续研究,分别是 Tgfb1、Fc gamma 受体 2 b(Fcgr2b)、Vcan versican(Vcan)、白细胞免疫球蛋白样受体 B4(Lilrb4)、胆碱能受体,毒蕈碱 1(Chrm1)和类胰蛋白酶样弹性蛋白酶 1(Cela1)(图6 a 和 b)。受试者工作特征(ROC)曲线结果显示,这六个基因在训练集中的 ROC 曲线下面积(AUC)值均大于 0.9(图 7 )。随后,对这三个验证集( GSE97537 、 GSE97533 和 GSE66724 )应用 ROC 曲线分析,以评估这六个基因的诊断价值(图 8 a–c)。最终,只有 Tgfb1 这一 mRNA 在所有验证集中的 AUC 值均大于 0.7。这些结果表明,Tgfb1 在区分大鼠和参与者的 IS 组与对照组方面具有良好的诊断性能。


通过最小绝对收缩和选择算子(LASSO)回归识别缺血性卒中的生物标志物。a LASSO 回归分析确定了与缺血性卒中相关的六个特征基因,其具有最小 lambda 值和非零参数。b 在元数据队列中,根据 log(lambda)序列生成了 LASSO 系数轮廓图。每条曲线对应每个基因的轨迹


训练集GSE36010 与 GSE78731 、 GSE61616 和 GSE106931 中特征缺血性卒中相关基因的受试者工作特征(ROC)曲线分析。ROC 曲线分析包括 a Tgfb1、b Fcgr2b、c Vcan、d Lilrb4、e Chrm1 和 f Cela1


验证集中文特征缺血性卒中相关基因的验证。这六个基因在 aGSE97537 、b GSE97533 和 c GSE66724 中的受试者工作特征曲线分析

MCAO 大鼠模型的验证
改良神经功能严重程度评分(mNSSs)在手术前两组相似(P > 0.05)。手术 1 天和 3 天后,MCAO 组的 mNSSs 高于对照组(P < 0.05)(图9 )。为验证 MCAO 大鼠模型中 Tgfb1 mRNA 的表达水平,作者在再灌注 3 天后收集脑组织和血液组织。苏木精和伊红(H&E)染色和尼氏染色证实了模型的成功构建(图 10 a 和 b)。RNA 提取和定量实时聚合酶链反应(qRT‒PCR)结果显示,与 对照组相比,MCAO 组的脑组织和血液组织中 Tgfb1 mRNA 显著增加(P < 0.05 和 P < 0.01,分别)(图 11 a–11b)。


术后不同时间的改良神经功能缺损评分(mNSSs),评分越高表示神经功能障碍越严重。ns 与对照组相比 P > 0.05;**与对照组相比 P < 0.01


脑组织代表性 H&E 染色和 Nissl 染色显微图(比例尺=1000 或 100 μm)。a 代表性 H&E 染色横切面。b 通过 Nissl 染色观察到两组脑组织中神经元的尼氏体。蓝色染色代表尼氏体,尼氏体颜色越深或呈斑纹状,神经元状态越好。苏木精和伊红(H&E)。**P < 0.05,与对照组比较


缺血性中风相关生物标志物的动物实验验证。a 大鼠脑组织中 Tgfb1 mRNA 的表达水平。b 中动脉闭塞(MCAO)组大鼠血液中 Tgfb1 的相对 mRNA 表达水平与对照组比较。*P < 0.05。**P < 0.01,与对照组比较

临床队列验证
接下来,作者通过 qRT‒PCR 验证了从缺血性卒中(IS)患者和健康对照(HCs)外周血样本中获取的 TGF-β1 mRNA 的表达。参与者的基本特征汇总于表 1 。这些 IS 患者和 HCs 在年龄或性别上没有显著差异(P > 0.05)。与生物信息学分析的趋势一致,qRT‒PCR 显示 IS 患者的血液中 TGF-β1 mRNA 表达高于 HCs 的血液(P < 0.001)(图 12 a)。TGF-β1 在临床样本中的 AUC 为 0.739(95%置信区间,0.590–0.888)(图 12 b)。


缺血性卒中(IS)相关生物标志物的临床实验验证。a IS 患者与健康对照组中 TGF-β1 的相对 mRNA 表达。**P < 0.01。b TGF-β1 表达的受试者工作特征曲线分析

 TGF-β1 水平与功能结局之间的校正
使用改良 Rankin 量表(mRS)评分量化了缺血性卒中(IS)患者的功能结局。mRS 评分将 IS 患者分为功能良好组(mRS ≤ 2)和功能不良组(mRS > 2)。患者特征总结于表2 。功能良好组患者的 TGF-β1 水平显著高于功能不良组(P < 0.05)(图 13 a)。TGF-β1 水平与 mRS 评分呈负相关(r = − 0.442,P < 0.05)(图 13 b)。


TGF-β1 水平与改良 Rankin 量表(mRS)评分之间的关系。a 功能预后良好和功能预后不良患者的血液 TGF-β1 水平。*P < 0.05。b 使用 Spearman 线性相关分析 TGF-β1 水平与 mRS 评分之间的相关性。


总结

 

本研究中确定的枢纽基因 Tgfb1 在 MCAO 大鼠模型和临床缺血性卒中患者中均表现出稳定的表达模式。此外,越来越多的证据表明该枢纽基因与缺血性卒中有密切关联。值得注意的是,Tgfb1 对缺血性卒中显示出良好的诊断效果,并与疾病严重程度相关。这些发现突出了 Tgfb1 作为缺血性卒中诊断潜在生物标志物的可能性。对这篇文章感兴趣的老师,欢迎扫码咨询!


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/183855
 
71 次点击