构建临床诊断模型是一个经典临床问题了,发文量非常大。尤其是研究常见肿瘤的朋友,那更是非常卷了,并且选题基本固定只能卷分析量和实验了。如在分析量上到位,且能提供新的队列数据的话实验可以少一点,也能冲击高分。
今天小塔分享一篇来中山大学第七附属医院以及深圳市人民医院等团队的11分+文章,发表在Cell Reports Medicine期刊上面,该研究的分析量是比较大的,结合了自测蛋白质组(发现队列包括12名健康对照和25名治疗前的结直肠癌患者。数据已存入 ProteomeXchange Consortium,数据集标识符为IPX0008187000),机器学习,公开转录组和单细胞转录等数据,主要做了Elisa和免疫组化实验。
整个技术路线还是比较经典的,毕竟临床问题太经典,创新的余地比较小,关键是用的技术比较新,工作量比较大,如果大家经费充足完全可以复现一篇!大家手头如果还有待挖掘的组学数据可以来找小塔设计新的方案并进行挖掘分析,如果有蛋白质组数据但没有像这篇文章这样做过,只是做过简单挖掘也可拿来让小塔进一步深挖,可别浪费了!
l题目:基于机器学习的分析识别和验证血清外泌体蛋白质组学特征,用于结直肠癌的诊断
l杂志:Cell Reports Medicine
l影响因子:IF=11.7
l
发表时间:2024年8月
研究背景
结直肠癌(CRC)是全球范围内发病率和死亡率较高的恶性肿瘤之一。开发有效的早期诊断方法对于提高CRC患者的生存率至关重要。传统的生物标志物如CEA和CA19-9在CRC诊断中存在敏感性和特异性不足的问题。液体活检作为一种新兴的诊断技术,尤其是通过分析血清外泌体(EVs)中的蛋白质,为发现新的生物标志物提供了可能。本研究旨在利用4D-DIA蛋白质组学技术和机器学习算法,从血清EVs中鉴定出新的CRC生物标志物,并构建高效的诊断模型。
数据来源
数据集/队列 | 数据库 | 数据类型 | 详细信息 |
TCGA- CRC | TCGA |
RNA-seq数据 | / |
GSE132465 | GEO | scRNA-seq数据 | 23个CRC样本和10个正常组织样本 |
GSE132257 | GEO | sc
RNA-seq数据 | 5个CRC样本和5个正常组织样本组成 |
研究思路
1. 样本收集:从结直肠癌患者和健康对照组中收集血清样本,用于后续的蛋白质组学分析和ELISA检测。
2. 4D-DIA蛋白质组学分析:利用4D-DIA技术对发现队列中的血清EV样本进行深入的蛋白质组学分析,鉴定出与CRC相关的蛋白质。
3. 机器学习建模:通过机器学习算法,特别是随机森林(RF)模型,从候选蛋白质中筛选出最具诊断潜力的生物标志物PF4和AACT。
4. ELISA验证:使用ELISA试剂盒在更大的样本集上验证PF4和AACT的表达水平,与传统生物标志物进行比较。
5. 诊断模型构建与评估:基于PF4和AACT构建随机森林诊断模型,并通过交叉验证和独立测试集评估模型的诊断性能。
6. 生物信息学分析:进行基因集富集分析(GSEA)和蛋白质-蛋白质相互作用(PPI)网络分析,以探究PF4和AACT在CRC中的潜在功能和作用机制。
7. 单细胞转录组分析:利用单细胞转录组数据探究释放PF4和AACT的特定细胞类型,进一步验证这些生物标志物的组织来源。
主要结果
1.在健康对照组和结直肠癌(CRC)患者中识别和表征血清外泌体(EVs)
从结直肠癌(CRC)患者和健康对照组(HC)的血清中分离出外泌体(EVs),并对其进行了详细的蛋白质组学分析。通过4D-DIA技术,研究人员鉴定了数千种蛋白质,并发现在CRC患者中有些蛋白质表达上调,有些下调。这些差异表达的蛋白质涉及多种生物学过程,包括炎症反应、免疫反应、血液凝固和血小板激活等。
图1通过4D-DIA蛋白质组学分析鉴定和表征健康对照组和结直肠癌患者血清外泌体(EVs)
2.通过机器学习筛选用于结直肠癌诊断的血清外泌体蛋白质组学生物标志物
利用机器学习技术筛选出用于结直肠癌(CRC)诊断的血清外泌体(EVs)中的蛋白质组学生物标志物。通过正交偏最小二乘判别分析(OPLS-DA),他们从12种候选蛋白质中识别出PF4和AACT作为最关键的生物标志物。随后,研究团队构建了基于这些蛋白质的机器学习模型,并通过随机森林(RF)算法确定了最优的诊断模型。这一模型在区分CRC患者和健康对照组方面表现出色,为CRC的诊断提供了新的潜在生物标志物。
图2通过机器学习流程筛选用于结直肠癌诊断的外泌体衍生生物标志物
3.在扩展队列中验证PF4和AACT水平的异常升高
在更大的队列中验证了先前发现的PF4和AACT在结直肠癌(CRC)中的异常升高。通过ELISA检测,与健康对照组或良性结肠疾病及炎症性疾病患者相比,CRC患者的血清外泌体(EV)中这两种蛋白的水平显著更高。此外,PF4和AACT的水平与CRC的临床分期、肿瘤-淋巴结-转移(TNM)分类和肿瘤分化程度相关。治疗后,这两种蛋白的水平显著下降。这些发现进一步证实了PF4和AACT作为CRC诊断和治疗后监测的潜在生物标志物的重要性。
图3在扩展队列中PF4和AACT的异常水平
4.结直肠癌(CRC)诊断的EV相关随机森林(RF)诊断模型的开发和验证
开发并验证了一种基于血清外泌体(EVs)的新诊断模型,用于结直肠癌(CRC)的诊断。该模型整合了PF4、AACT、CEA和CA19-9四种生物标志物,并通过随机森林(RF)算法进行优化。在训练集和测试集中,新模型展现了比传统生物标志物更高的诊断准确性。此外,该模型在区分早期CRC患者和健康对照组方面表现出色,且在区分CRC与其他胃肠道疾病方面也显示出优越的诊断性能。
图4结直肠癌检测的EV相关随机森林(RF)诊断模型的构建和验证
5.对血清外泌体衍生的PF4和AACT的功能富集分析
对结直肠癌中外泌体衍生的PF4和AACT进行了功能富集分析,以探索它们在肿瘤中的潜在作用。通过基因集富集分析(GSEA),发现PF4与细胞分化、细胞发育和跨膜转运相关,且与脂质定位和胆固醇外流途径负相关。而AACT则与急性炎症反应、蛋白水解的负向调控相关。蛋白质-蛋白质相互作用(PPI)网络分析进一步揭示了PF4可能与脂质代谢相关基因相互作用,AACT可能参与炎症反应和细胞骨架构建。
图5预测EV衍生的PF4和AACT的功能
6.解读释放EV衍生PF4和AACT的具体细胞类型
通过单细胞转录组分析探究了释放EVs中PF4和AACT的特定细胞类型。分析结果显示,在结直肠癌(CRC)组织中,与正常组织相比,CRC上皮细胞表达的PF4和AACT显著增加。此外,PF4在髓样细胞、基质细胞和T细胞中的表达也略有上调。免疫组化检测进一步证实了这些发现,表明CRC上皮细胞中PF4和AACT的表达水平异常升高。这些结果揭示了CRC中PF4和AACT的可能细胞来源,为理解这些蛋白质在肿瘤发展中的作用提供了重要信息。
文章小结
简单来说该研究其实就是借助蛋白质组学和机器学习构建了诊断模型,并且做了一些Elisa和免疫组化的验证。做到这里其实工作量也还可以了,但是该研究进一步从蛋白水平 聚焦到基因水平,利用公共转录组和单细胞转录组数据探讨了关键蛋白的功能和关联细胞类型,内容就更加丰富了。从研究的技术路线上来看做出的创新性不算特别大,主要还是分析量较大,DIA技术较新,提供了新的队列数据,鉴定了新的蛋白质标志物等。经费充足这个思路就值得参考,可复现性还比较强的!想做类似的思路可以直接微信和船长沟通,如果手头也有未完全挖掘的组学数据也可联系船长设计新的方案,旧数据再挖掘发一篇SCI岂不是美滋滋!
生信塔公众号持续为大家带来最新生信思路,更多创新性分析思路请点击往期推荐,快来查看吧!想复现这种思路或者定制更多创新性思路欢迎直接call小塔,我们团队竭诚为您的科研助力!