Py学习  »  机器学习算法

回顾性临床研究太单调?加上“机器学习”秒变身!

挑圈联靠 • 2 年前 • 311 次点击  



领略高端套路,发表高分文章!






小伙伴们大家好,我是菠小萝。这里是菠小萝的高分生信SCI解读专栏。感谢作者为我们提供了很好的学习典范!今天带给大家的是一篇“机器学习”套路的纯生信文章,于2021年3月发表在《Frontiers in medicine》上的文章,最新影响因子:3.900。题目是“Application of Machine Learning Algorithms to Predict Central Lymph Node Metastasis in T1-T2, Non-invasive, and Clinically Node Negative Papillary Thyroid Carcinoma”。


期刊简介

“挑圈联靠”题目要素拆解

疾病乳头状甲状腺癌(Papillary Thyroid Carcinoma);
数据来源临床回顾性资料;
文章类型机器学习算法的回顾性研究。

知识背景

本篇范文是一项临床大样本的回顾性研究,作者分析的数据是自己的临床数据,但从这一点来看,是不是就好像为临床大夫们量身定制的套路呀!乳头状甲状腺癌(PTC)是常见的内分泌恶性肿瘤之一。临床上常以中央淋巴结解剖(CLND)治疗,其目的是适当的清扫颈部淋巴结。相比之下,预防性中央淋巴结解剖(pCLND)由于缺乏随机对照数据而没有被推广。但临床上,为了防止cN0的PTC患者复发和第二次手术,更需要个性化的治疗方案来准确预测中央淋巴结转移(CLNM)发生的重要性。

由此,作者想要通过机器学习(ML)建立一个预测模型解决上述临床问题。ML其实是一种新型的人工智能(AI),能够通过强大的预测能力,开发出在某些情况下优于传统统计模型的预测工具,从而更好地预测CLNM状态。在本研究中作者通过ML算法以最佳的Xgboost模型获得可接受的CLNM预测,结合术前和术中危险因素,开发出在某些情况下优于传统统计建模的预测工具,从而能够更好地预测CLNM状态。

数据来源 & 思路框架

本篇范文是一篇典型的机器学习算法套路的文章,研究的数据是临床上未参与的中央颈部淋巴结甲状腺乳头状癌(PTC)患者信息。出发点就源于目前尚无明确非侵入性的T1-T2期肿瘤,是否需要进行中央淋巴结清扫。这也是本文的一个创新点。范文研究的目的呢,就是开发并验证一个基于机器学习算法的预测模型,用来评估这些患者中心淋巴结转移(CLNM)的风险。

当然,我们也可以在生信分析后,加一个对于数据集临床信息的机器学习,加加分。只要有临床数据信息和相对来讲较为正确的标签就可以化数据集为“临床研究”。接下来就是函数的各种应用,好啦我们马上就来学习范文吧!

数据精析

1

基线资料分析

本篇范文纳入的临床样本是接受手术的1,271例T1-T2期,无创性和临床淋巴结阴性(cN0)PTC患者。首先,总结这些患者的临床病理特征,分析基线资料。作者将数据集随机分为两组,即用于ML模型开发的训练集(70%)和用于性能评估的验证集(30%),然后重复此随机分裂,直到患者数据分为两组。这一步骤是机器学习算法的最基础,也是最重要的部分,后续的分析都是建立在此基础上的,小伙伴们一定要先学习算法的基础呀!否则基线不一致,后面的都是空中楼阁~

2

ROC曲线&逻辑回归模型构建

然后就直接进入正题,使用机器学习算法的ROC曲线分析,用于预测验证集中患者出现CLNM的临床节点。接下来,作者根据CLNM分组,进行单因素和多因素逻辑回归分析。在单变量分析中,作者发现肿瘤大小、性别、年龄、多灶性,双侧病变,DLN定位均显著相关,而CLNM阳性和阴性组间肿瘤的位置没有显著差异。在多变量logistic回归分析中(表2),作者列出了包括年龄、性别、CLT、DLN、多灶性、双侧性、肿瘤大小和位置等在内的因素,是否能够作为预测CLNM阳性的独立预后因素。


3

机器学习算法的开发及性能比较

这一部分是文章中的高潮部分。作者开发了六种类型的ML算法来对数据建模:逻辑回归(LR),梯度提升机(GBM),极限梯度提升(XGBoost),随机森林(RF),决策树(DT)和神经网络(NNET) 。在训练过程中,考虑对基于ML的模型进行调整以避免过度拟合,而针对ML模型的最佳超参数是5倍交叉验证。然后,通过使用R语言对ML算法进行进一步训练,以预测CLNM的风险。作者在验证集中评估了具有相同超参数的每个ML分类器的预测能力,该验证集中的接收器工作特征(AUROC)下的面积值,并计算了ML算法的相应灵敏度、特异性和整体准确性。这六种ML算法模型在验证集中的预测性能比较见表3和图1。其中,作者详细说明了验证集中的六个ML算法模型之间的预测性能比较。结果表明,XGBoost模型在预测CLNM方面表现出最高的性能,其验证集中的AUROC为0.750,灵敏度为0.667,特异性为0.674,准确性为0.670。在ML算法性能的比较中,AUC越接近1,则分类模型执行得越好因此,作者选择XGBoost模型作为最终的预测模型。



4

变量在机器学习算法中的验证

然后,作者比较了变量在机器学习算法中的相对重要性。如图2所示,可以看到模型的总体趋势。虽然这些ML算法中各变量的重要性略有差异,但Delphian淋巴结转移、肿瘤大小、年龄、性别、多灶性等因素无一例外地排在前五名。相反,双侧病变、肿瘤位置在中、峡部极、CLT等变量对CLNM的预测贡献不大。

结果如图2,显示了每种CLNM预测ML算法中变量的相对重要性。我们可以看到有普遍的证据趋势:尽管在这些ML算法中变量的重要性显示出细微的差别,但包括Delphian淋巴结转移,肿瘤大小,年龄,性别,多灶性在内的因素均排在前五位。相反,诸如双侧病变,中部或峡部中部的肿瘤位置和CLT之类的变量对CLNM预测的贡献很小。XGBoost模型中高级变量的重要性按降序排列:德尔福淋巴结转移,肿瘤大小,年龄,性别,多灶性和肿瘤位置。


5

开发在线风险计算器

最后,作者基于性能最佳的模型,创建了一个在线风险计算器,该计算器可以使用新输入的PTC患者数据进行预测,从而使临床医生可以轻松访问这些患者中的CLNM风险。这个Web计算器可预测T1-T2期,非侵入性和临床淋巴结阴性PTC患者的中心淋巴结转移。只需输入现成的术前和术中临床病理变量(https://jin63。shinyapps.io / ML_CLNM /)

全文总结

本篇范文作者采用了性能最佳的ML算法模型,用于估算个人发生CLNM的可能性。创新点就是,作者第一个使用ML算法开发具有CLMN实时风险评估的预测模型的研究模型。作者应用了六种机器学习(ML)算法,包括逻辑回归(LR),梯度提升机(GBM),极端梯度提升(XGBoost),随机森林(RF),决策树(DT) ,以及神经网络(NNET)结合术前的临床特征和术中信息来开发CLNM的预测模型。在所有样本中,随机选择70%训练模型,其余30%用于验证。

基于ML的模型,利用术前和术中临床病理特征来预测个体化治疗CLNM的可能性,并获得最佳的ML算法用于在线预测PTC的CLNM。ML算法将术前变量包括较大的肿瘤,更年轻的年龄,男性,多灶性以及下位的肿瘤位置确定为CLNM阳性状态的最重要的预测指标。在单因素分析中,双侧病变与CLNM有关,但在校正混杂因素后,在多因素分析中显示无意义。所有结果均已在ML算法中得到确认。ML算法的比较表明,XGBoost模型具有最佳性能。为了使该模型的应用可用,作者还进一步建立了一个在线计算器,用于估计该子集的PTC患者中CLNM的个案可能性。这个在线应用程序,可供临床医生通过计算每个患者的风险来促进个性化手术治疗。比如,如果确定患者在手术期间发生CLNM的可能性很高,则尽管与当前ATA指南相抵触,仍可以考虑pCLND。

好啦,其他的分析结果我就不多说啦,大家后台回复“机器学习”获取范文全文吧~好啦,我们下周再见吧,拜拜!


参考文献

[1]Jiang Zhu1, Jinxin Zheng, Longfei Li.etl.Application of Machine Learning Algorithms to Predict Central Lymph Node Metastasis in T1-T2, Non-invasive, and Clinically Node Negative Papillary Thyroid Carcinoma.Front. Med., 09 March 2021 | https://doi.org/10.3389/fmed.2021.635771


通讯作者代志军教授简介
浙江大学医学院附属第一医院主任医师,博士生导师,博士后合作导师,浙江大学临床名师计划引进人才。中华预防医学会循证医学分会方法学组副组长,中国医促会循证医学分会委员,中国抗癌协会整合肿瘤专业委员会委员,浙江省数理医学学会循证医学专委会主任委员,生物大数据专委会副主任委员以及多个学会常委或委员,Cancer Medicine、World J Gastroenterol等国际期刊编委,国际知名期刊Cancer、Cancer letters、Breast Cancer Res Treat、DNA and Cell Biology、Cancer Cell Int等20余种SCI杂志审稿人。近年来在国内外知名期刊发表论文120余篇,其中SCI收录90余篇,中英文被引共计>3000次。目前主持国家自然科学基金2项、省市各级课题多项。获国家发明专利授权5项,获省部级科学技术奖4项。
代志军教授主要研究方向为:
(1)肿瘤生物靶向治疗基础;
(2)肿瘤临床流行病学。
代志军教授团队常年招聘博士后工作人员,待遇优厚,详情也可查阅浙江大学医学院招聘网站,欢迎感兴趣的研究人员应聘。应聘者请将个人申请材料发送至:dzj0911@zju.edu.cn,并将主题注明"博士后申请+姓名"。



苏新良,博士,重庆医科大学附属第一医院内分泌乳腺外科教授,主任医师,硕士生导师,重庆抗癌协会甲状腺癌专业委员会主任委员,中国医师协会重庆市甲状腺外科专委会副主任委员, 中国研究型医院学会甲状腺疾病专业委员会常务委员,中国医疗保健国际交流促进会临床实用技术分会常务委员,中华医师协会甲状腺外科专委会委员。2006年前往法国斯特拉斯堡大学中心医院做访问学者。近年来在国内外杂志发表学术论文数十余篇。担任《中华内分泌外科杂志》、《中国肿瘤临床》、 《重庆医科大学学报》等杂志编委及审稿专家。







往期传送门
CELL的TCGA数据挖掘有什么不一样?全面驱动基因突变景观拓展你的眼界!(内附图文精讲)
Cancer Cell最新纯生信文章,TCGA数据再度深入挖掘!
惊!TCGA多组学分析套路,还能发到9分加?葫芦里卖的什么药?
重磅最新消息!DeepMind首次突破蛋白折叠的历史难题,这项AI技术能否成为生信领域的下一匹黑马?
揭秘!8分+经典高端“基因家族”纯生信套路大放送~
“基因家族”套路过时了?最新10分+纯生信文章发给你看!
临床搞得你焦头烂额?这篇Nature子刊教你巧用临床数据发顶级生信文章!
TCGA太俗套?自己的临床数据搞起来照样发高分!
年初重磅福利!0实验轻松发表6分+~包你2021开年红!
生信也有队列研究!这篇近9分纯生信SCI教你如何挖别人的数据,发自己的文章 !
2张Fig的单癌种生信文章10分+?到底出彩在哪里!
申课题陷入无前期“死循环”?5分+非肿瘤生信万能套路让牛年的你“开门红”(文末有重点哦~)
终于要教你们高水准“挑分子”必杀技能了!
这篇近9分+的ceRNA生信,教你这样“耍花招”!
申课题没有前期?5+干湿结合文章教你如何巧用生信数据!
大佬云集科研团队发的6分文章,3天搞定绝对不是梦
“基因集”套路你听说过吗?新鲜出炉6分+文章有望引领生信新潮流
“单基因套路”也能15分+!这样的生信它不香吗?


欢迎大家关注解螺旋生信频道-挑圈联靠公号~




END

撰文丨菠小萝
排版丨四金兄
值班 | 风间琉璃
主编丨小雪球




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/131272
 
311 次点击