4+共病+机器学习+实验+单细胞，共病的思路，小白也适合！！

‍

导语

今天给同学们分享一篇生信文章“An Integrative Analysis of Transcriptome Combined with Machine Learning and Single-Cell RNA-Seq for the Common Biomarkers in Crohn's Disease and Kidney Stone Disease”，这篇文章发表在Inflamm Res期刊上，影响因子为4.2。

结果：

鉴别表达基因的鉴定

作者选择了三个微阵列数据集： GSE95095 、 GSE36807 、和 GSE6731 ，包括 68 个 CD 影响的样本和 23 个正常对照样本。检查批量校正（ Figure 2A–C ）之前和批量校正（） Figure 2D–F 之后的数据表明，组合数据中的批次效应被消除，数据进行了归一化。最初，使用 Limma 方法在合并的 CD 数据集中鉴定了 745 个 DEGs（倍数变化 > 1.5 和 p 值 <0.05），其中 474 个表现出上调，271 个表现出下调。前面提到的数据通过热图和火山图的可视化如和 B 所示 Figure 3A 。同样，在 KSD 数据集（ GSE73680 ）中筛选出 5584 个 DEGs，包括 4376 个上调和 1208 个下调基因（ Figure 4A 和 B ）。

数据预处理。执行箱线图、主成分分析和表达密度图以去除GSE95095 和 GSE6731 的 GSE36807 批量校正。批次校正前（A–C）和批次校正后（D–F）。

从集成的 CD 数据集中识别出 CD 组和对照组之间的 DEG。（A）火山图中的红色和绿色分别表示基因表达水平显著升高和较低的 DEGs。（B）热图显示了 CD 组和对照组中上调和下调的前 20 个基因。

通过 Limma 鉴定 DEGs，通过 KSD 中的加权基因共表达网络分析鉴定模块基因。（A） DEGs 的 GSE73680 火山图。（B） DEG 的 GSE73680 热图。（C 和 D）尺度独立性和平均连通性。 GSE73680 （E）基因的簇树状图。（F）基因树下用不同颜色表示的基因共表达模块。（G）特征基因邻接热图。（H）模块与 KSD 之间关联的热图。（I）深绿色模块中模块隶属关系和基因显著性的相关性。

加权基因共表达网络分析与关键模块鉴定

作者使用 WGCNA 来确定与 KSD 最密切相关的模块。根据尺度独立性和平均连通性（ Figure 4C 和 D ）选择β 28 的“软”阈值 28（无标度 R2 = 0.86）。 Figure 4E 说明了 KSD 和控件的聚类树图。利用这一分析，构建了 8 个有色基因共表达模块，如 Figure 4F 和 G 所示。其中，包含 2625 个潜在 HGs 的深绿色模块（ Figure 4H ）因其优越的基因意义而成为中心模块（r = 0.42， p = 0.01）。 Figure 4I 介绍了深绿色模块内模块成员资格和基因意义之间的相关性检查结果（r = 0.34）。因此，深绿色模块被视为进一步分析的关键模块。

肾结石病的功能富集分析

为了评估该数据集是否准确代表了 KSD 的发病机制，作者利用从 WGCNA 获得的深绿色模块基因与从肾结石数据集的 Limma 分析生成的 DEGs 之间的交集进行了功能富集分析（ GSE73680 ）。 Figure 5A 显示找到的共享基因的总数（1793）。KEGG 分析表明，这些基因主要集中在 “代谢途径” 和 “抗原加工和呈递” （ Figure 5B ）。GO 调查表明，CGs 主要集中在生物过程（BP）方面，包括 “慢性炎症反应”、“内分泌过程” 和 “慢性炎症反应的调节” （ Figure 5C ）。关于细胞成分（CC）本体，CG 主要位于“细胞体膜”、“高尔基体腔”和“转运蛋白复合体”（ Figure 5D ）。分子功能（MF）评估显示，“跨膜信号转导受体活性”是最关键的项目（ Figure 5E ）。富集研究表明，免疫和炎症反应与 KSD 密切相关，并且对随后的 CD 检查可靠。

KEGG，KSD 基因交叉的 GO 分析。（A） KSD 中从 Limma 分析和 WGCNA 获得的基因之间交集基因的维恩图。（B）交集基因的 KEGG 分析。（C-E）分子功能、细胞成分和生物过程都包含在 GO 分析中。GO 项用 y 轴表示，而相关 GO 项所涉及的基因比率用 x 轴表示。基因数由圆圈的大小表示，p 值由它们的颜色表示。

使用 KSD 对 CD 进行富集分析，并使用蛋白质-蛋白质相互作用网络鉴定节点基因

为了研究 KSD 相关关键基因是否与 CD 的发病机制有关，通过 Limma 分析从 3 个 CD 数据集获得的基因与 KSD 模块基因的交集中发现了 36 个基因，如维恩图（）所示Figure 6A 。利用这些基因进行 KEGG 分析，结果显示 36 个基因最常参与包括 “神经活性配体-受体相互作用 ”和 “cAMP 信号通路 ”的通路，如图所示 Figure 6B ，都与免疫系统密切相关。GO 分析发现，这些基因与 “上皮发育”、“信号受体活性调节” （BP）有关;“细胞外区域”和“细胞外空间”（CC）;以及“信号受体结合”、“受体配体活性”和“受体调节活性”（MF）（ Figure 6C–E ）。随后，作者建立了一个交互组网络来查明潜在的相互作用的 HG。PPI 网络如所示 Figure 6F ，表明 14 个基因之间的潜在相互作用。这 14 个基因根据中的 Figure 6G 节点编号进行排序。

对 CD 和 KSD 相关基因进行富集分析，并从 PPI 网络中发现节点基因。（A）维恩图显示，通过 Limma 方法从 CD 中基因与 KSD 与 WGCNA 的基因交集鉴定出 36 个共同基因。（B）交集基因的 KEGG 分析。（C-E）36 个基因的 GO 分析（生物过程、细胞成分和分子功能）。（F）根据 PPI 网络，14 个基因相互相互作用。（G）该列显示 PPI 网络中 14 个基因的基因节点。

基于机器学习的候选人 HG 筛选

使用 LASSO 回归和 RF 机器学习方法确定了列线图开发和诊断评估的潜在基因。Figure 7A 并 B 说明了 LASSO 回归方法确定了六个潜在的候选标记，同时 Figure 7C 和 D 演示了 RF 算法如何根据计算的显着性对基因进行排名（ Figure 7C 和 D ）。最后，将 LASSO 的 6 个潜在候选基因与 RF 算法中最重要的前 6 个基因相交，作者通过交叉两个机器学习结果获得了 5 个 HG （PYY、FOXA2、REG3A、REG1A 和 REG1B） Figure 7E 。

机器学习筛选候选 HG 与 KSD 的 CD。（A 和 B）用于生物标志物筛选的 Lasso 模型。最适合诊断 CD 伴 KSD 的基因数（n = 6）是对应于曲线中最小值的基因。（C）选择基因的随机森林方法。（D）通过随机森林算法按重要性分数排序 14 个基因。（E）维恩图表明，上述两种方法的结果在基因上有交集。

列线图的构建和诊断价值评估

为了证实作者上述生物信息学研究的结果，作者初步评估了组合 CD 数据集和 KSD 数据集 GSE73680 中 5 个 HGs 的表达谱。箱形图表明，相对于健康受试者，PYY、FOXA2、REG3A、REG1A 和 REG1B 在 CD 或 KSD 个体中的表达水平显着升高（ Figure 8A 和 B ）。接下来，作者构建了包含五个 HG （ Figure 8C ）的列线图。如图所示 Figure 8C ，构建了具有 5 个 HG 的列线图。绘制诊断模型包括 PYY 、 FOXA2 、 REG3A 、 REG1A 和 REG1B 的 ROC 曲线，两个队列（ Figure 8D 和 E ）的 AUC 分别为 0.958 和 0.862。接下来，使用两个外部数据集确认该模型的诊断价值。在 CD 的 GSE75214 验证集中，该模型的 AUC 为 0.972 （ Figure 8F ）。虽然 KSD 基因集有限，KSD GSE36446 验证集中缺乏 REG1B 的基因信息，但其余 4 个基因的诊断模型仍为 0.944，表现出优异的性能（ Figure 8G ）。这些结果表明，对 CD 伴 KSD 的诊断具有良好的预测价值。此外，作者进行了细胞实验以建立用于 CD 和 KSD 研究的细胞模型。qRT-PCR 结果验证，与对照样品相比，LPS 处理的 Caco-2 细胞模型中 PYY 、 REG3A 、 REG1A 和 REG1B 的表达水平显着升高，而 FOXA2 降低（ Figure 8H ）。用 2 mm CaOx 处理 HK-2 细胞，探讨 CaOx 结石中 5 种 HGs 的表达，结果显示 CaOx 组所有 5 个基因的水平高于对照组（ Figure 8I ）。

列线图构建和诊断值验证。（A） HGs 在组合 CD 数据集中的表达。（B） HG 在 KSD 数据集中的表达式（ GSE73680 ）。（C）列线图是根据 5 个基因构建的。（D）模型在集成 CD 数据集中的 ROC 曲线。（E） KSD 数据集中模型的 ROC 曲线（ GSE73680 ）。（F 和 G）模型在 CD （ GSE75214 ）和 KSD （ GSE36446 ）验证集中的 ROC 曲线分析。AUC，曲线下的面积。（H） Caco-2 细胞样品中 5 个关键基因的 RT-qPCR 结果。（I） HK-2 细胞样本中 5 个关键基因的 qRT-PCR 结果。*p< 0.05， **p < 0.01， ****p < 0.0001.

监管网络分析

此外，利用 Cytoscape （）可视化了包含 5 个 hG、109 个节点和 110 个边缘的 mRNA 和 miRNA 的共表达网络Figure 9A 。在 miRNAs 中，miR-571 、 miR-1275 、 miR-4775 和 miR-765 是靶向其中两个 HG 的常见 miRNA。如所示 Figure 9B ，调控网络预测了与 5 个 HG 相关的 TF。FOXC1 、 NR3C1 和 GATA2 的度值等于 3。因此，它们可能是 KSD 伴 CD 发展的关键调节因子。

预测潜在的 miRNAs 和 5 hGs 的 TF-mRNA 网络。（A）五个 HG 和潜在 miRNA 靶向的相互作用网络，其中红色菱形代表基因，蓝色矩形代表预测的 miRNA。（B） TF-mRNA 调控网络图，其中蓝色省略号代表 TF，黄色省略号代表基因。

HGs 的单细胞数据集分析

PYY、FOXA2、REG3A、REG1A 和 REG1B 的细胞分布以及相关细胞群利用来自GSE214695 的单细胞信息进行了验证。作者通过降维分析获得了 11 个细胞组，并在热图（）上可视化了每个簇表达升高的基因 Figure 10A–C 。通过注释（）获得 T 细胞、结肠细胞、浆细胞、巨噬细胞、成纤维细胞、B 细胞、杯状细胞、肥大细胞、上皮细胞和神经胶质细胞等 10 种细胞 Figure 10D 。显然，CD 患者包括 B 细胞、巨噬细胞和 T 细胞在内的免疫细胞的浸润水平相对较高（ Figure 10E 和 F ）。最后，PYY、FOXA2、REG3A、REG1A 和 REG1B 在不同类型细胞中的表达水平如 Figure 10G 和 H 所示。研究结果表明，FOXA2 、 REG3A 、 REG1A 和 REG1B 在杯状细胞中表达升高，而 PYY 在结肠细胞中高表达。

单细胞转录组分析描述了 CD 单细胞测序数据集中 HG 的细胞分布和细胞类型映射（GSE214695 ）。（A）单细胞聚集的树状图。（B） UMAP 缩小图显示了从单细胞测序分析中获得的 10 个细胞簇（分辨率 = 0.1）。（C）标记基因表达的热图。（D）根据主要细胞类型着色的 UMAP 图。（E）样品中不同细胞类型的数量和比例的条形图。（F） CD 样品与对照样品的 UMAP 图的分平面表示。（G）不同细胞中核心基因的坐标定位图。（H）不同细胞中核心基因的表达小提琴图。

总结

基于生物信息学分析和机器学习，作者确定了 5 个 HGs （PYY 、 FOXA2 、 REG3A 、 REG1A 和 REG1B ）。还建立了 miRNA-mRNA 和 TF-mRNA 网络，结果揭示了中央 miRNA 和 TFs。随后的单细胞测序分析在细胞水平上提供了更深入的见解。本研究筛选的基因和调控分子可能具有作为 CD 和 KSD 诊断和治疗靶点的潜力，并有助于未来分子机制的探索。对这篇文章感兴趣的老师，欢迎扫码咨询！

往期推荐

纯生信选刊

非肿瘤生信

预后模型

单基因生信

单细胞系列