癌症预测斩获7分+！同济医学院再出神作！“机器学习+癌症分析”高分组合，生信分析简单操作易复现，你上你也行！

哈喽大家好，小编来报道啦！不是吧不是吧，机器学习的热度还是这么火爆嘛？一篇机器学习的文章就可以轻轻松松斩获1区7分+，还结合的是癌症分析，真是牛啊！自从机器学习斩获诺奖以来，各大国内外科研团队争先恐后的将机器学习纳入自己的科研计划中，同时也出现了很多的高分神作，没想到2025年魅力依旧不减啊！

不过如今还能借用“机器学习”的这波热度，轻松复现一篇一区SCI还是很值得呢~（特别是时间紧但科研任务重的宝子们可得打起精神好好听，这篇文章绝对适合你，快跟着小编的步伐看下来吧~）

这篇文章是华中科技大学同济医学院附属同济医院检验科汪峰教授团队发表在Computers in Biology and Medicine（IF=7.0）期刊中题为“Immune profile and routine laboratory indicator-based machine learning for prediction of lung cancer”的研究论文，该研究主要通过流式细胞术结合多种机器学习算法构建了肺癌诊断和分期的预测模型，探索了宿主免疫参数联合常规实验室指标在肺癌早期预测中的应用价值。

25年肿瘤研究二十大热点

长按扫码添加免费邮寄到家

个性解读｜课题设计

生信热点｜直播分享

研究亮点与创新点

开拓新领域：实现多维度指标与算法协同优化机制

本研究首次通过机器学习整合常规实验室指标与外周免疫指标的策略，在肺癌分期预测中展现出卓越性能，揭示出免疫系统与肺癌进展之间存在动态互作关系，不同疾病阶段呈现出特征性免疫图谱，为在肺癌筛查及分期预测提供算法适配性指导。

一、研究背景

肺癌是发病率最高的恶性肿瘤之一，其高死亡率与隐匿性强、早期诊断困难密切相关，多数患者确诊时已处于晚期。当前低剂量CT虽为筛查金标准，但存在96%的假阳性率，导致过度诊疗和经济负担。流式细胞术作为宿主免疫监测的重要工具，可通过分析T细胞、NK细胞等免疫亚群的功能表型揭示宿主免疫特征，但其在肺癌早期预测中的应用尚属空白。与此同时，机器学习技术在医学影像分析中展现出显著优势，如卷积神经网络在肺结节良恶性鉴别中准确率达90%以上，迁移学习可突破小样本数据局限。因此本研究系统整合肺癌患者多维免疫指标，构建机器学习预测模型，旨在开发非侵入性早期诊断工具，突破现有筛查瓶颈，为精准诊疗提供新策略。

二、研究设计方法

本研究纳入221例诊断为肺癌或肺良性病变的患者。依据TNM分期系统确定患者的癌症分期：早期肺癌组包含152例I期患者和4例II期患者，晚期肺癌组包含23例III期患者和17例 IV期患者，肺良性病变组包含25例患者。通过流式细胞术测定患者外周血中T细胞、B细胞和NK细胞的百分比和绝对计数，并检测不同免疫细胞亚群。采用极端梯度提升分类器（XGBoost）、有序Logistic回归、随机森林分类器、支持向量机分类器（SVC）以及K-近邻算法分类器（KNN）等五种常用的机器学习算法进行肺癌分期分类。

图1. 构建肺癌分类模型的机器学习流程图

三、重点研究结果

1. 肺癌的免疫景观

本研究对健康对照组、良性肺部疾病、早期肺癌和晚期肺癌组的免疫特征进行了详细检查。研究结果发现，随着疾病从健康状态向良性病变、早期肺癌及晚期肺癌发展，效应记忆CD8⁺ T细胞（EM CD8⁺T）和多形核髓源性抑制细胞（PMN-MDSCs）的比例呈阶梯式上升，而初始CD8⁺T细胞、树突状细胞（DCs）及NKG2D+ NK细胞则逐步下降（图2A）。

虽然各组间多个免疫指标存在显著差异，但热图聚类分析显示健康对照组、肺良性病变组与不同分期肺癌组间未形成明显的免疫特征分区（图2B），但主成分分析（PCA）进一步揭示，健康对照组以NK细胞功能（NK细胞比例、穿孔素阳性NK细胞）为主导特征，早期患者以CD4⁺ T细胞潜能指标（CD4⁺T细胞及初始CD4⁺T细胞）是主要鉴别变量，晚期患者则以CD8⁺T细胞激活标志（HLA-DR⁺T细胞及HLA-DR⁺CD8⁺T细胞）为关键区分因子（图2C）。

整体而言，肺癌进展的典型免疫模式表现为效应CD8⁺T细胞持续分化，同时伴随先天免疫（如DCs 、NK细胞）与适应性免疫（如初始CD8⁺T细胞）功能的渐进性衰退。综上结果所述，这些动态变化的免疫指标不仅揭示了肺癌微环境的演化规律，更为开发基于免疫特征的分期诊断模型提供了潜在靶点。

图2. 肺癌的免疫景观

2. 基于综合指标的肺癌分类模型

本研究通过整合临床及免疫指标构建了肺癌分类模型，来区分良性病变、早期肺癌和晚期肺癌。采用Lasso回归算法进行特征筛选，最终选定21个关键预测因子，涵盖吸烟史、免疫特征（HLA-DR⁺CD4⁺T细胞、CD28⁺CD4/CD8⁺T细胞、 NKG2D⁺ NK细胞、PD-1⁺Tfh细胞）、血常规参数（中性粒细胞比例/绝对值、淋巴细胞比例、嗜碱细胞比例）、生化指标（平均红细胞血红蛋白量、总蛋白、白蛋白/球蛋白比值、总胆红素、直接胆红素、碱性磷酸酶、肌酐）及肿瘤标志物CEA（图3A）。

基于筛选特征，研究系统评估了五种机器学习算法。结果显示，XGBoost与随机森林存在明显过拟合现象（训练集表现显著优于测试集），而SVC综合性能最优，Logistic回归次之（图3）。结合SVC的高预测性能与Logistic回归的模型可解释性，最终选择 SVC与Logistic回归构建肺癌分类模型，为肺癌分层诊断提供兼具精准度与透明度的智能工具。

图3. 基于综合指标的肺癌分类模型

3. 基于常规指标的肺癌分类模型

研究进一步评估常规临床指标对肺癌分期的独立诊断价值，通过Lasso回归筛选出17个关键变量，包括吸烟史、血常规参数（白细胞计数、中性粒细胞比例/绝对值、淋巴细胞/单核/嗜酸/嗜碱细胞比例）、生化指标（平均血红蛋白量、总蛋白、球蛋白、直接胆红素、碱性磷酸酶、肌酐）及肿瘤标志物CEA（图4A）。

基于此特征集，研究对比了五种机器学习模型，发现 SVC与Logistic回归仍表现最优，其中SVC测试准确率达80.0%，精确度0.71，加权F1值0.734（图4）；Logistic回归同样实现80.0%准确率，但精确度（0.8）与F1值（0.75）更优。值得注意的是，引入免疫指标后，Logistic回归性能未见显著提升，但SVC分类效能显著改善，表明免疫特征对增强SVC 预测能力具有特异性增益。这一发现进一步表示在优化模型时需权衡指标维度与算法特性——免疫指标的纳入虽未普适性提升所有模型表现，但对特定算法（如SVC）具有重要协同作用，为构建高精度分类体系提供了策略优化方向。

图4. 基于常规指标的肺癌分类模型

四、讨论与总结

该研究揭示了肺癌不同发展阶段免疫特征的显著变化。研究发现，从健康对照组到良性病变、早期肺癌及晚期肺癌患者，效应记忆CD8⁺T细胞（EM CD8⁺T）和多形核髓源性抑制细胞（PMN-MDSCs）的比例呈进行性升高，而初始CD8⁺T细胞、树突状细胞（DCs）及NKG2D⁺NK细胞的比例则随疾病进展逐步下降。由此，肺癌进展过程中最显著的免疫特征表现为效应CD8⁺T细胞的持续分化、抑制性PMN-MDSCs的累积，以及先天免疫（如DCs、NK细胞功能）与适应性免疫（如初始CD8⁺T细胞）的进行性损伤。通过整合筛选的常规实验室指标与免疫特征，研究验证了SVC与Logistic回归机器学习模型在肺癌存在性及其分期预测中的高准确度效能。