社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

文献精读:开发基于机器学习的HCC早期诊断预测模型

医学界肿瘤频道 • 8 月前 • 114 次点击  
*仅供医学专业人士阅读参考

eHCC-pred模型将HCC早期诊断的准确率从78.15%提升至97%。


肝细胞癌(HCC)的诊断通常依赖于影像学检查或组织活检。尽管大多数HCC病例在影像学上具有特异性表现,但仍有约10%的肿瘤(在直径为1-2cm的肿瘤中,这一比例可高达30%)缺乏典型的影像学特征[1]。在临床上怀疑HCC但影像学特征不典型的情况下,不应推迟进行活检或安排复查。若复查结果仍然不明确,则应进行活检[2]。然而,活检样本若采集位置不精确,可能导致误诊(即假阴性结果)。对于从非肿瘤(如肝硬化或正常)组织中采集到的HCC活检样本,小活检样本的诊断假阴性率大约在30%-50%[3,4]。因此,开发新的分子标志物对于早期HCC的诊断尤为关键,特别是在活检样本位置可能存在偏差的情况下。

近期,一项研究利用大样本数据,结合最小冗余最大相关性(mRMR)和最大相关性最大距离(MRMD)两种特征选择方法,并融合八种基于机器学习的算法,开发出一种用于HCC早期预测的模型(eHCC-pred)。该模型将HCC早期诊断的准确率从78.15%提升至97%,有望在个体化水平上稳定地应用于临床实践,助力HCC的早期诊断。该模型可于http://www.dulab.com.cn/eHCC-pred/免费获取[5]。医学界肿瘤频道整理该研究内容如下,以供参考。


本项研究采用了来自三个公共数据库(GEO、ICGC和TCGA)的46个数据集,共计5586个组织样本,其中包含4045个肝细胞癌(HCC)样本、416个未发生HCC的肝硬化(CwoHCC)样本、334个伴有HCC的肝硬化(CwHCC)样本以及791个未发生HCC的正常肝组织(NwHCC)样本。


GEO数据库的44个转录组数据集包含3431个HCC样本、416个CwoHCC样本、334个CwHCC样本和741个NwHCC样本。数据通过Affymetrix、Agilent和Illumina平台检测,Affymetrix芯片数据集经RMA方法处理,Agilent和Illumina芯片数据集使用预处理数据。ICGC和TCGA数据集分别包含243个和371个HCC样本,以及50个NwHCC样本。研究还使用了HPA数据库下载的2902个分泌基因数据。



1.HCC预测模型的推导

 
本研究的整体分析流程如图1所示。首先,基于988个HCC样本和332个CwoHCC样本的基因表达谱,分别获得了25,341,086对和20,559,429对稳定的基因对。在这两组基因对中,有5765对基因对在HCC组织和CwoHCC组织之间表现出稳定的逆转关系。接着,通过筛选2902个分泌基因中的基因对,最终获得了242对基因对,这些基因对中的基因i和基因j均为分泌基因。随后,基于包含242个特征(基因对)的新数据集提取了最佳特征。

 

图1. 整体分析流程


表1展示了基于准确率、F1分数适应函数和AUC值对不同预测模型分类性能的比较。表1的结果表明,包括mRMR + KNN、mRMR + SVM、mRMR + LR、mRMR + XGBoost、mRMR + LMT、MRMD + KNN、MRMD + SVM、MRMD + LR和MRMD + LMT在内的九种预测模型,在所有性能指标上均表现优异,准确率、F1分数和AUC值均达到1。


在这九种预测模型中,mRMR + KNN和mRMR + SVM的基因对数量最少,仅包含11对基因对(表2)。



2.HCC预测模型的验证


使用独立数据集(包括测试集、GEO数据集、ICGC数据集和TCGA数据集)对各种算法的性能进行了验证。如表3所示,对于3057个HCC样本和84个CwoHCC样本,MRMD + SVM预测模型(包含28对基因对)在独立数据集中获得了最高的准确率和F1分数,其准确率、F1分数和AUC值分别为0.9834、0.9915和0.9278。而mRMR + SVM预测模型(包含11对基因对)在独立数据集中获得了最高的AUC值0.9384,高于其他预测模型。因此,在后续分析中重点关注这三个预测模型。他们在活检样本和手术样本中的详细验证结果如表4所示。

  • 活检样本

在测试集(29个HCC样本和48个CwoHCC样本)中,mRMR + SVM预测模型和mRMR + KNN预测模型均实现了1的敏感性和1的特异性,而MRMD + SVM预测模型的敏感性为1,特异性为0.8542。在GEO活检数据集中(GSE121248, GSE47197),mRMR + SVM预测模型正确分类了96.18%的HCC样本,mRMR + KNN预测模型正确分类了66.41%的HCC样本,而MRMD + SVM预测模型对131个HCC样本的分类准确率达到了100%。

  • 手术样本

在测试集(220个HCC样本和36个CwoHCC样本)中,mRMR + SVM预测模型和mRMR + KNN预测模型的敏感性和特异性均为1,而MRMD + SVM预测模型的敏感性为1,特异性为0.8889。


这些结果表明,在使用活检样本时,mRMR + SVM预测模型、mRMR + KNN预测模型和MRMD + SVM预测模型均能够准确区分HCC和CwoHCC。


3.与现有预测模型的比较


对于1800个HCC样本,Ao教授团体开发的模型、本研究团队既往开发的模型以及本次提出的mRMR + SVM预测模型和MRMD + SVM预测模型的准确度分别为0.6639、0.7656、0.8428和0.9872。对于1931个HCC样本,Ao方法的准确度为0.6572,本研究团队既往方法的准确度为0.7815,而mRMR + SVM预测模型和MRMD + SVM预测模型的准确度分别提高到0.8503和0.97。上述结果表明,mRMR + SVM预测模型和MRMD + SVM预测模型在与现有预测模型相比,表现更为优越。


最终,本研究成功开发了一种基于机器学习的HCC早期诊断预测模型eHCC-pred。该模型集成了两种不同的机器学习预测算法:MRMD + SVM和mRMR + SVM,将HCC早期识别的准确率从78.15%提升至97%,将为临床医生提供了更为精确的工具,以期在HCC的早期阶段就进行有效的干预和治疗。













长按识别二维码
或点击阅读原文
精彩资讯等你来



参考文献:
[1]Llovet JM, Kelley RK, Villanueva A, et al. Hepatocellular carcinoma. Nat Rev Dis Primers. 2021 Jan 21;7(1):6. doi: 10.1038/s41572-020-00240-3. Erratum in: Nat Rev Dis Primers. 2024 Feb 12;10(1):10.

[2]Marrero JA, Kulik LM, Sirlin CB, et al. Diagnosis, Staging, and Management of Hepatocellular Carcinoma: 2018 Practice Guidance by the American Association for the Study of Liver Diseases. Hepatology. 2018 Aug;68(2):723-750.

[3]Forner A, Llovet JM, Bruix J. Hepatocellular carcinoma. Lancet. 2012 Mar 31;379(9822):1245-55.

[4]Villanueva A, Minguez B, Forner A, et al. Hepatocellular carcinoma: novel molecular approaches for diagnosis, prognosis, and therapy. Annu Rev Med. 2010;61:317-28.

[5]Zhang ZM, Huang Y, Liu G, et al. Development of machine learning-based predictors for early diagnosis of hepatocellular carcinoma. Sci Rep. 2024 Mar 4;14(1):5274. 


审批编号:CN-150407 有效期至:2025-12-18

本材料由阿斯利康提供,仅供医疗卫生专业人士参考

更多医疗资讯,点击“阅读原文”查看

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/177231
 
114 次点击