开始想说几句 在掌握Python数据科学的基础上,利用Pycaret体系可以在10行代码水平实现基本分析的流程。 套路文可以作为初步学习Code和学习SCI文章的尝试,但是不能仅满足于套路文,应该以工具为基础进一步收集数据并合作发表高质量文章。 快速基准测试,数据依赖的自动化调参是自动化机器学习/深度学习的常规任务(autoML/autoDL) 文章与杂志情况 杂志情况 Proof
文章首页 背景与目的 放射性皮炎(Radiation Dermatitis, RD)是乳腺癌放射治疗中常见的不良反应,不仅会降低患者生活质量,还会增加医疗负担。构建有效的风险预测模型对于早期识别高危患者并实施预防性干预措施至关重要。
材料与方法 本研究纳入2024年2月1日至12月19日期间在本院接受术后放射治疗的691例乳腺癌患者。在放射治疗期间及治疗结束后2周内,对患者的放射性皮炎严重程度及相关影响因素进行监测。 将数据集分为训练集(n=552)和测试集(n=139),采用10折交叉验证法对14种机器学习算法进行评估,依据曲线下面积(Area Under the Curve, AUC)及其他指标筛选模型。通过内部留存测试集验证模型可靠性,并利用SHAP分析(SHapley Additive exPlanations)确保模型的可解释性。
结果
在691例患者中,52.68%(n=364)发生了2级及以上的急性放射性皮炎。 随机森林模型表现最佳: 在训练集中AUC为0.84(95%置信区间:0.807–0.873),在测试集中AUC为0.748(95%置信区间:0.665–0.831);训练集的灵敏度/特异度为0.811/0.747,测试集的灵敏度/特异度为0.877/0.576。
校准曲线证实模型预测结果与实际观测结果具有一致性。决策曲线分析显示,在25%–75%的治疗阈值下,该模型的净获益比“全部治疗”或“不治疗”策略高0.2–0.4。SHAP分析识别出锁骨上区临床靶区(Clinical Target Volume-Supraclavicular, CTVsc)、内乳区临床靶区(Clinical Target Volume-Internal Mammary, CTVim)、TNM分期Ⅱ期及糖尿病状态是放射性皮炎的关键预测因素。
结论 本研究构建的可解释机器学习模型具有良好的区分能力和临床应用价值。可解释性分析揭示了特征间的非线性关系,为制定个体化放射治疗方案、降低重度放射性皮炎风险提供了理论依据。
基于Pycaret库实现多模型多指标的快速基准测试 模型评价 基于shap值的模型解释-bee warm plot 个体水平的shap值可解释性
学习课程相关方法学体系 方法学体系实现应用Pycaret库,其可以快速低代码构建机器学习的全流程,包括基准测试与模型可解释方法的实现
https://pycaret.gitbook.io/docs/ 实现主要的参考教程为二元结果的整体流程实现
https://nbviewer.org/github/pycaret/pycaret/blob/master/tutorials/Tutorial%20-%20Binary%20Classification.ipynb 相关课程