Py学习  »  机器学习算法

IF=8.0,纯生信、高分SCI,“我全都要”!精炼基因集+机器学习建模,从入门到进阶均适用!

挑圈联靠 • 3 月前 • 160 次点击  

欢迎来看雪球的生信套路!临床时间紧、科研任务重,都说这种情况做0自测、0实验的生信SCI香,可期刊收稿要求也在不停调整。如何把握发表机会,低成本发高分呢?


今天这篇IF=8.0的纯生信SCI就交出了一份优秀答卷:

精炼基因集 - 对已知通路/功能模块,采用差异表达、共表达网络及生存分析筛选出与免疫响应密切相关的核心基因


构建高精度+临床适用的预测模型 - 本文使用多种机器学习模型测试多个参数组合的预测性能。使用十倍交叉验证计算训练集中的AUROC平均值,再计算验证集中AUROC平均值。使用网格搜索显示最佳参数结果为“200”(个上调和下调基因)、“AUCell”和“逻辑回归”。


临床转化价值证明 - Kaplan-Meier分析&多因素Cox回归,确认HAPIR独立预后价值;CIBERSORT反卷积显示免疫活性提升;通过DrugBank筛选靶向HAPIR基因的潜在药物,并验证结合亲和力,为联合治疗提供依据。

基因集优化→算法建模→多维度验证→临床关联分析这一套路流程,生信小白如果要学习实操,可以看看往期复现文章文章复现 | 0代码纯生信,2025年新发表!生信怎么做基因家族?是如何零代码完成IF3+分析的。


好啦,步入今天的正题吧!



HAPIR: a refined Hallmark gene set-based machine learning approach for predicting immunotherapy response in cancer patients

HAPIR:一种基于优化版特征基因集的机器学习方法,用于预测癌症患者的免疫治疗反应


期刊:npj Precision Oncology

IF:8.0

发布时间:2025/06/18


 技术路线 


提取精炼的标志基因集:

在Riaz等人的队列中,获得了20名ICIs响应者和78名非响应者之间差异表达的前200个显著上调和下调基因,这些基因显著富集在七个标志基因集中,包括免疫反应相关功能、KRAS信号上调、外源物质代谢、IL2 STAT5信号和上皮-间充质转化等,这些功能基因集之前已被暗示与免疫治疗反应和肿瘤免疫逃逸有关。


构建ICIs反应预测模型:

计算精炼标志基因集的活性水平,并应用逻辑回归训练预测ICIs治疗反应的模型。在训练数据集上进行十倍交叉验证,HAPIR的预测性能相比基于ICIs靶点表达的模型(PD-1和PD-L1)有所提高,AUROC值为0.778,优于PD-1(0.678)和PD-L1(0.54)。


评估模型性能:

在三个黑色素瘤数据集、NSCLC和STAD数据集中,HAPIR的AUROC值均超过0.8,且在两个有生存数据的数据集中,HAPIR与生存时间显著相关。与13个现有的ICIs反应相关生物标志物相比,HAPIR在多个数据集中展现出显著更高的AUROC值,证明了其在免疫治疗反应预测中的优势。


预测潜在靶点和药物:

通过分析CRISPR筛选数据,发现了21个免疫抵抗基因和17个免疫敏感基因,其中VCAM1作为一个潜在的治疗靶点,其高表达与更好的免疫反应和生存结果相关。利用LINCS数据开发算法,筛选出能够提高VCAM1表达的药物Niclosamide,该药物已被证明能够增强免疫治疗效果。



 研究结果 


Fig 2 精炼的Hallmark基因集鉴定


A 黑色素瘤反应者和无反应者之间 DE 基因的火山图

B 用于 Hallmark 基因集富集分析的气泡图

C-D 六个队列中 DE 基因 (C) 和富集基因集 (D) 的 Jaccard 指数热图

E 7 个精细 Hallmark 基因集中 77 个 DE 基因的网络可视化


Fig 3 HAPIR在训练集中的预测性能


A HAPIR、PD-1 和 PD-L1 的 ROC 曲线

B HAPIR 生成的 Kaplan-Meier 生存曲线

C-D PD-1(C)和 PD-L1(D)的表达生成的 Kaplan-Meier 生存曲线

E-F HAPIR 和 13 种 ICI 反应相关生物标志物的AUROC (E) 和准确性 (F) 比较


Fig 4 HAPIR 在验证和测试数据集中的预测性能


A HAPIR 的 ROC 曲线

B-C 在 Gide 等人 (B) 和 Lauss 等人 (C) 队列中为 HAPIR 生成的 Kaplan-Meier 生存曲线

D HAPIR 的 AUROC 值和 13 个精选的 ICI 反应相关生物标志物的箱线图


Fig 5 HAPIR 的对比分析


A HAPIR 与其他基于基因的方法之间的 AUROC 比较热图

B HAPIR 与其他基因集方法之间的 AUROC 比较雷达图


Fig 6 HAPIR 预测概括了 Riaz 等人队列中的免疫微环境


A HAPIR 预测与 CD8+ T 细胞比例之间的相关性

B-D HAPIR 预测与 MHC (B) 和共刺激剂 (C) 和趋化因子 (D) 基因表达之间相关性的气泡图


Fig 7 使用 17 个 CRISPR Screen 数据集探索来自 77 个基因的潜在治疗靶点与 ICI 组合


A 17 个 CRISPR 筛选数据集中 77 个基因的 z 分数热图

B-D Riaz 等人 (B)、Gide 等人 (C) 和 Lauss 等人 (D) 队列中 VCAM1 表达生成的 Kaplan-Meier 生存曲线

E 黑色素瘤数据集中 VCAM1 的单变量逻辑回归分析的森林图

F 氯硝柳胺处理下 VCAM1 倍变化值的富集图



可以用免费工具进行课题调研,先人一步!







生信套路多多,没有时间学习复现、优化分析,怎么办?


搞不定选题,我们帮你出方案;

搞不定分析,我们帮你拿成果;

搞不定投稿返修,我们全流程陪跑......


雪球老师带队,已陪跑5000+科研项目,收到2500+客户报喜,值得信赖的团队,值得入场的优质个性化套路服务👇

 雪球的生信套路 每周周中讲解 

平台改版,记得星标⭐

才不会错过更新哦

科研小白如何入门纯生信,记得来看最新的复现栏目文章复现 | 0代码纯生信,2025年基因家族是这样做的→,生信分析师一步一步教你做🚗

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/185292