回顾性临床研究太单调？加上“机器学习”秒变身！

领略高端套路，发表高分文章！

小伙伴们大家好，我是菠小萝。这里是菠小萝的高分生信SCI解读专栏。感谢作者为我们提供了很好的学习典范！今天带给大家的是一篇“机器学习”套路的纯生信文章，于2021年3月发表在《Frontiers in medicine》上的文章，最新影响因子：3.900。题目是“Application of Machine Learning Algorithms to Predict Central Lymph Node Metastasis in T1-T2, Non-invasive, and Clinically Node Negative Papillary Thyroid Carcinoma”。

期刊简介

“挑圈联靠”题目要素拆解

疾病：乳头状甲状腺癌（Papillary Thyroid Carcinoma）；

数据来源：临床回顾性资料；

文章类型：机器学习算法的回顾性研究。

知识背景

本篇范文是一项临床大样本的回顾性研究，作者分析的数据是自己的临床数据，但从这一点来看，是不是就好像为临床大夫们量身定制的套路呀！乳头状甲状腺癌（PTC）是常见的内分泌恶性肿瘤之一。临床上常以中央淋巴结解剖(CLND)治疗，其目的是适当的清扫颈部淋巴结。相比之下,预防性中央淋巴结解剖(pCLND)由于缺乏随机对照数据而没有被推广。但临床上，为了防止cN0的PTC患者复发和第二次手术，更需要个性化的治疗方案来准确预测中央淋巴结转移(CLNM)发生的重要性。

由此，作者想要通过机器学习(ML)建立一个预测模型解决上述临床问题。ML其实是一种新型的人工智能（AI），能够通过强大的预测能力，开发出在某些情况下优于传统统计模型的预测工具，从而更好地预测CLNM状态。在本研究中作者通过ML算法以最佳的Xgboost模型获得可接受的CLNM预测，结合术前和术中危险因素，开发出在某些情况下优于传统统计建模的预测工具，从而能够更好地预测CLNM状态。

数据来源 & 思路框架

本篇范文是一篇典型的机器学习算法套路的文章，研究的数据是临床上未参与的中央颈部淋巴结甲状腺乳头状癌（PTC）患者信息。出发点就源于目前尚无明确非侵入性的T1-T2期肿瘤，是否需要进行中央淋巴结清扫。这也是本文的一个创新点。范文研究的目的呢，就是开发并验证一个基于机器学习算法的预测模型，用来评估这些患者中心淋巴结转移（CLNM）的风险。

当然，我们也可以在生信分析后，加一个对于数据集临床信息的机器学习，加加分。只要有临床数据信息和相对来讲较为正确的标签就可以化数据集为“临床研究”。接下来就是函数的各种应用，好啦我们马上就来学习范文吧！

数据精析

基线资料分析

本篇范文纳入的临床样本是接受手术的1,271例T1-T2期，无创性和临床淋巴结阴性（cN0）PTC患者。首先，总结这些患者的临床病理特征，分析基线资料。作者将数据集随机分为两组，即用于ML模型开发的训练集（70％）和用于性能评估的验证集（30％），然后重复此随机分裂，直到患者数据分为两组。这一步骤是机器学习算法的最基础，也是最重要的部分，后续的分析都是建立在此基础上的，小伙伴们一定要先学习算法的基础呀！否则基线不一致，后面的都是空中楼阁~

ROC曲线&逻辑回归模型构建

然后就直接进入正题，使用机器学习算法的ROC曲线分析，用于预测验证集中患者出现CLNM的临床节点。接下来，作者根据CLNM分组，进行单因素和多因素逻辑回归分析。在单变量分析中,作者发现肿瘤大小、性别、年龄、多灶性,双侧病变,DLN定位均显著相关,而CLNM阳性和阴性组间肿瘤的位置没有显著差异。在多变量logistic回归分析中(表2)，作者列出了包括年龄、性别、CLT、DLN、多灶性、双侧性、肿瘤大小和位置等在内的因素，是否能够作为预测CLNM阳性的独立预后因素。

机器学习算法的开发及性能比较

这一部分是文章中的高潮部分。作者开发了六种类型的ML算法来对数据建模：逻辑回归（LR），梯度提升机（GBM），极限梯度提升（XGBoost），随机森林（RF），决策树（DT）和神经网络（NNET）。在训练过程中，考虑对基于ML的模型进行调整以避免过度拟合，而针对ML模型的最佳超参数是5倍交叉验证。然后，通过使用R语言对ML算法进行进一步训练，以预测CLNM的风险。作者在验证集中评估了具有相同超参数的每个ML分类器的预测能力，该验证集中的接收器工作特征（AUROC）下的面积值，并计算了ML算法的相应灵敏度、特异性和整体准确性。这六种ML算法模型在验证集中的预测性能比较见表3和图1。其中，作者详细说明了验证集中的六个ML算法模型之间的预测性能比较。结果表明，XGBoost模型在预测CLNM方面表现出最高的性能，其验证集中的AUROC为0.750，灵敏度为0.667，特异性为0.674，准确性为0.670。在ML算法性能的比较中，AUC越接近1，则分类模型执行得越好。因此，作者选择XGBoost模型作为最终的预测模型。

变量在机器学习算法中的验证

然后，作者比较了变量在机器学习算法中的相对重要性。如图2所示，可以看到模型的总体趋势。虽然这些ML算法中各变量的重要性略有差异，但Delphian淋巴结转移、肿瘤大小、年龄、性别、多灶性等因素无一例外地排在前五名。相反，双侧病变、肿瘤位置在中、峡部极、CLT等变量对CLNM的预测贡献不大。

结果如图2，显示了每种CLNM预测ML算法中变量的相对重要性。我们可以看到有普遍的证据趋势：尽管在这些ML算法中变量的重要性显示出细微的差别，但包括Delphian淋巴结转移，肿瘤大小，年龄，性别，多灶性在内的因素均排在前五位。相反，诸如双侧病变，中部或峡部中部的肿瘤位置和CLT之类的变量对CLNM预测的贡献很小。XGBoost模型中高级变量的重要性按降序排列：德尔福淋巴结转移，肿瘤大小，年龄，性别，多灶性和肿瘤位置。

开发在线风险计算器

最后，作者基于性能最佳的模型，创建了一个在线风险计算器，该计算器可以使用新输入的PTC患者数据进行预测，从而使临床医生可以轻松访问这些患者中的CLNM风险。这个Web计算器可预测T1-T2期，非侵入性和临床淋巴结阴性PTC患者的中心淋巴结转移。只需输入现成的术前和术中临床病理变量(https://jin63。shinyapps.io / ML_CLNM /)

全文总结

本篇范文作者采用了性能最佳的ML算法模型，用于估算个人发生CLNM的可能性。创新点就是，作者第一个使用ML算法开发具有CLMN实时风险评估的预测模型的研究模型。作者应用了六种机器学习（ML）算法，包括逻辑回归（LR），梯度提升机（GBM），极端梯度提升（XGBoost），随机森林（RF），决策树（DT），以及神经网络（NNET）结合术前的临床特征和术中信息来开发CLNM的预测模型。在所有样本中，随机选择70％训练模型，其余30％用于验证。

基于ML的模型，利用术前和术中临床病理特征来预测个体化治疗CLNM的可能性，并获得最佳的ML算法用于在线预测PTC的CLNM。ML算法将术前变量包括较大的肿瘤，更年轻的年龄，男性，多灶性以及下位的肿瘤位置确定为CLNM阳性状态的最重要的预测指标。在单因素分析中，双侧病变与CLNM有关，但在校正混杂因素后，在多因素分析中显示无意义。所有结果均已在ML算法中得到确认。ML算法的比较表明，XGBoost模型具有最佳性能。为了使该模型的应用可用，作者还进一步建立了一个在线计算器，用于估计该子集的PTC患者中CLNM的个案可能性。这个在线应用程序，可供临床医生通过计算每个患者的风险来促进个性化手术治疗。比如，如果确定患者在手术期间发生CLNM的可能性很高，则尽管与当前ATA指南相抵触，仍可以考虑pCLND。

好啦，其他的分析结果我就不多说啦，大家后台回复“机器学习”获取范文全文吧~好啦，我们下周再见吧，拜拜！

参考文献

[1]Jiang Zhu1, Jinxin Zheng, Longfei Li.etl.Application of Machine Learning Algorithms to Predict Central Lymph Node Metastasis in T1-T2, Non-invasive, and Clinically Node Negative Papillary Thyroid Carcinoma.Front. Med., 09 March 2021 | https://doi.org/10.3389/fmed.2021.635771

通讯作者代志军教授简介

浙江大学医学院附属第一医院主任医师，博士生导师，博士后合作导师，浙江大学临床名师计划引进人才。中华预防医学会循证医学分会方法学组副组长，中国医促会循证医学分会委员，中国抗癌协会整合肿瘤专业委员会委员，浙江省数理医学学会循证医学专委会主任委员，生物大数据专委会副主任委员以及多个学会常委或委员，Cancer Medicine、World J Gastroenterol等国际期刊编委，国际知名期刊Cancer、Cancer letters、Breast Cancer Res Treat、DNA and Cell Biology、Cancer Cell Int等20余种SCI杂志审稿人。近年来在国内外知名期刊发表论文120余篇，其中SCI收录90余篇，中英文被引共计>3000次。目前主持国家自然科学基金2项、省市各级课题多项。获国家发明专利授权5项，获省部级科学技术奖4项。

代志军教授主要研究方向为：

（1）肿瘤生物靶向治疗基础；

（2）肿瘤临床流行病学。

代志军教授团队常年招聘博士后工作人员，待遇优厚，详情也可查阅浙江大学医学院招聘网站，欢迎感兴趣的研究人员应聘。应聘者请将个人申请材料发送至：dzj0911@zju.edu.cn，并将主题注明"博士后申请+姓名"。

苏新良，博士，重庆医科大学附属第一医院内分泌乳腺外科教授，主任医师，硕士生导师，重庆抗癌协会甲状腺癌专业委员会主任委员,中国医师协会重庆市甲状腺外科专委会副主任委员, 中国研究型医院学会甲状腺疾病专业委员会常务委员，中国医疗保健国际交流促进会临床实用技术分会常务委员，中华医师协会甲状腺外科专委会委员。2006年前往法国斯特拉斯堡大学中心医院做访问学者。近年来在国内外杂志发表学术论文数十余篇。担任《中华内分泌外科杂志》、《中国肿瘤临床》、《重庆医科大学学报》等杂志编委及审稿专家。

往期传送门

CELL的TCGA数据挖掘有什么不一样？全面驱动基因突变景观拓展你的眼界！（内附图文精讲）

Cancer Cell最新纯生信文章，TCGA数据再度深入挖掘！

惊！TCGA多组学分析套路，还能发到9分加？葫芦里卖的什么药？

重磅最新消息！DeepMind首次突破蛋白折叠的历史难题，这项AI技术能否成为生信领域的下一匹黑马？

揭秘！8分+经典高端“基因家族”纯生信套路大放送~

“基因家族”套路过时了？最新10分+纯生信文章发给你看！

临床搞得你焦头烂额？这篇Nature子刊教你巧用临床数据发顶级生信文章！

TCGA太俗套？自己的临床数据搞起来照样发高分！

年初重磅福利！0实验轻松发表6分+~包你2021开年红！

生信也有队列研究！这篇近9分纯生信SCI教你如何挖别人的数据，发自己的文章！

2张Fig的单癌种生信文章10分+？到底出彩在哪里！