今天就分享篇南京师大的 10.1 分纯生信文章,靠 “网毒 + 机器学习 + 分子对接” 拿下,思路好复制,新手也能学!
选题太会了:小众污染物 + 机制空白,稳赚不赔
研究聚焦BDCPP(阻燃剂代谢物)致子宫内膜癌,这选题妙在两点:
- BDCPP 藏在家具、汽车里,日常暴露多但研究少,网毒分析它和癌症的关联,此前几乎没人做,创新点直接拉满;
- 已有流行病学证据:EC 患者尿液中 BDCPP 浓度更高,且是唯一和 EC 风险独立相关的阻燃剂 —— 有依据兜底,不怕出阴性结果,投稿也更易被认可。
思路超清晰:三步搞定,机器学习是加分王
流程简单到能总结成 “筛靶点→缩圈→验证”,但每步都踩在点子上:
- 网毒初筛:多数据库挖 265 个 BDCPP 靶点、7432 个 EC 靶点,交集得 165 个核心靶点,再建 PPI 网络,看靶点间协同关系;
- 机器学习精筛:最绝的一步!用117 个模型(随机生存森林、弹性网络等)分析 TCGA 数据,最终锁定 8 个 hub 基因,还建了风险评分模型 —— 高风险组 EC 患者 5 年生存率显著更低,AUC 达 0.745,临床价值拉满;
- 验证补证据:单基因 GSEA 挖出 “核质运输” 等新通路,分子对接直接证明 BDCPP 能和 8 个 hub 基因结合(4 个结合能≤-5.0 kcal/mol),证据链超完整。
实操不复杂:重点在 “搭工具”
别被 “117 个机器学习模型” 吓住!
- 网毒部分用 Cytoscape、clusterProfiler 就能做,教程遍地有;
- 机器学习若不熟,可借现成分析框架,或找团队协助 —— 关键是 “想到用机器学习缩圈”,而非死磕每个模型细节。
其实纯生信不用堆复杂方法,选对 “小众有依据” 的研究对象,用 “网毒初筛 + 机器学习精筛 + 分子对接验证”,就能出高分!下次做网毒,别再只搞传统分析,搭个机器学习试试,说不定就爆了~
如果您也想尝试 “MR+” 联合思路,却在方案设计或生信分析上遇到难题,不妨联系科信服!咱们团队拥有十余年技术沉淀,能提供从个性化思路设计到完整生信分析的一站式服务,助力您高效产出高分成果!
中文题目:通过结合网络毒理学、机器学习和分子对接的综合方法破译 BDCPP 暴露在子宫内膜癌进展中的致病机制
发表时间:2025年9月
子宫内膜癌 (EC) 是全球最常见的妇科恶性肿瘤之一。环境污染物在欧共体发展中的作用越来越受到关注。流行病学研究表明,尿中磷酸二(1,3-二氯-2-丙基)浓度升高与EC风险增加之间存在显著关联。然而,BDCPP 诱导的 EC 的枢纽基因和潜在机制仍然知之甚少。从多个数据库中检索到BDCPP和EC的潜在靶点。基于共同靶点构建蛋白-蛋白质相互作用(PPI)网络。使用 GO、KEGG 和 Reactome 数据库进行富集分析。EC 患者的临床和转录组学数据从 TCGA 下载。随后,采用117个机器学习模型对枢纽基因进行筛选。BDCPP 暴露的风险评分是根据枢纽基因计算的。对枢纽基因进行单基因集富集分析(GSEA)并进行分子对接,预测BDCPP与枢纽基因的结合亲和力。
通过多数据库交叉挖掘,从 CTD、SuperPred 等数据库获取 265 个 BDCPP 相关靶点,从 GeneCards、DisGeNET 等数据库获取 7432 个 EC 相关靶点,最终筛选出 165 个 “交集靶点”—— 这些基因可能是 BDCPP 诱发 EC 的关键 “突破口”。
对 165 个共同靶点构建蛋白质 - 蛋白质相互作用(PPI)网络,发现该网络包含 162 个节点和 1311 条相互作用边,平均每个节点连接 16.2 个邻居,提示这些靶点存在紧密的协同调控关系。
进一步通过 GO、KEGG、Reactome 数据库进行功能富集分析,揭示了三大核心生物学过程:
-
炎症激活:靶点显著富集于 “中性粒细胞胞外陷阱形成”“对脂多糖的反应” 等通路;
- 激素紊乱:涉及 “甲状腺激素信号通路”“雄激素合成” 相关功能;
- 脂质代谢异常:富集于 “花生四烯酸代谢”“脂解调控” 等通路。
研究团队首次采用117 种机器学习模型(含随机生存森林 RSF、弹性网络 Enet 等),对 TCGA 数据库中 529 例 EC 患者的转录组和临床数据进行训练与验证,最终筛选出8 个核心 hub 基因:PLA2G2A、PLAU、SIRT2、DRD2、GSK3A、THRB、CYP17A1、TLR9
其中,RSF+GBM 组合模型表现最优,在测试集中 C 指数达 0.75(C 指数越接近 1,预测能力越强),且 8 个 hub 基因的重要性在不同模型中保持稳定,证明其可靠性。
单基因GSEA进一步强调了核质转运、多梳抑制复合物和mRNA监测途径在BDCPP毒性机制中的关键作用
PLA2G2A 释放花生四烯酸,转化为 PGE2,直接刺激子宫内膜细胞增殖、抑制凋亡;PLA2G2A 除了促炎,还能水解膜磷脂生成溶血磷脂酸(LPA),激活 ERK 通路促进细胞增殖;同时释放游离脂肪酸,为快速增殖的肿瘤细胞提供能量,形成 “代谢 - 癌变” 正反馈。PLAU 激活基质金属蛋白酶(MMPs),破坏基底膜,助力肿瘤侵袭转移;
TLR9 识别肿瘤细胞释放的异常 DNA,触发 NF-κB 炎症通路,形成 “慢性炎症 - 免疫抑制” 恶性循环,为癌症进展创造微环境。CYP17A1 催化孕酮合成雄激素,为肿瘤细胞 “自给自足” 提供雌激素前体,尤其促进绝经后 EC 发生;THRB(甲状腺激素受体 β)功能异常,解除对 PI3K/AKT 通路的抑制,导致细胞周期失控;DRD2(多巴胺受体 D2)通过非经典信号通路激活 MYC 等癌基因,绕开激素依赖途径驱动癌变。SIRT2(组蛋白去乙酰化酶)异常激活,导致抑癌基因(如 PTEN)沉默;GSK3A 磷酸化组蛋白 H3,维持促癌基因的高表达状态,锁定癌细胞的恶性表型。为确认 BDCPP 与 8 个 hub 基因的直接相互作用,研究团队通过 AlphaFold 3 预测蛋白质结构,再用 CB-Dock2 进行分子对接:
- 所有 8 个 hub 基因与 BDCPP 的结合能均 < 0(热力学自发),其中 THRB、TLR9、PLAU、SIRT2 的结合能≤-5.0 kcal/mol,提示强结合能力;
- 2D 相互作用图显示,BDCPP 通过氢键、疏水作用与靶蛋白关键氨基酸残基结合,进一步证实其靶向调控效应。
从 “日常污染物” 到 “癌症驱动因子”,本研究通过多学科交叉技术,层层递进解码了 BDCPP 诱发子宫内膜癌的分子密码。8 个核心 hub 基因、四大致癌机制、一个预后模型 —— 这些发现不仅为环境健康领域提供了全新视角,更为女性癌症的精准防治开辟了新路径。
别让繁琐的数据分析拖慢科研进度!西安科信服生物的专业团队,懂你所需、解你所难:转录组、单细胞、肠道菌群…… 无论哪个领域,机器学习、孟德尔随机化等工具信手拈来。从数据到结论,从思路到成果,一站式服务让你专注科学本身。现在就联系我们,让你的科研之路少走弯路,快速产出高质量成果,离顶刊更近一步!