社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

机器学习新思路:低级别胶质瘤(LGG)患者的预后如何改善?

生信人 • 1 年前 • 430 次点击  
大家好,今天给大家做一个文献解读,随着生物信息学的发展和大量文章的发表,简单的生物实验、通路机制类的文章已经不再新鲜,期刊杂志也不满足于简单的实验类文章,生物信息学文章近年来大量发表,而文章中应用到的生物信息学方法也内卷严重,那么我们除了做简单的生物信息学分析外,要多看多学多用,创新的算法与实验结合,让投文章更加简单。

这个期刊的水平不用多说,中科院一区,OA杂志,11年出版,《Theranostics》创刊第2年即被SCI收录,首个影响因子就有7.806分之高,此后三年逐年攀升,2015年后的连续三年下降终于开始上涨,在2019年达到峰值8.579分,今年更是达到了11.6分,随着影响因子的通货膨胀,预测接下来还会继续升高。


首先这篇文章值得一提的是它的算法图,不愧是一区的文章,图的布局相当好看,也十分恰当把文章中的关键点、创新点直观的展示给读者



本研究利用一种新的计算框架和10种机器学习算法(101种组合),综合分析低级别胶质瘤(LGG)纯化的免疫细胞、LGG细胞系和LGG大体积组织的测序数据,筛选出肿瘤浸润免疫细胞相关(TIIC) LncRNA。

大家都知道,长链非编码RNA (long noncoding RNAs, lncRNAs)作用关键,可以参与免疫系统的调节,在免疫细胞亚群中表现出细胞类型的特异性模式。鉴于肿瘤浸润淋巴细胞在有效免疫治疗中的重要作用,研究者探索了在低级别胶质瘤(LGG)中尚未发现的肿瘤浸润免疫细胞相关(TIIC)LncRNA 。

说起来,肿瘤浸润免疫细胞相关的LncRNA肯定是有很多相关的研究了,但作者选题角度也很刁钻,选择了癌症研究较少的胶质瘤,并进一步筛选出低级别胶质瘤,这一点使得他的研究不是重复而无意义的了,选题新颖。




方法学部分


1.首先介绍一下作者的数据来源,无非就是这几个常用的公共数据库TCGA-LGG, CGGA数据库,GEO数据库的十六个胶质瘤数据集以及癌症细胞系百科全书项目CCLE。


2.接下来是对转录组数据的处理,对芯片数据进行归一化处理,FPKM数据转化为TPM数据,通过GENECODE数据库对Lncrna探针进行注释。

3.通过对纯化的免疫细胞、LGG细胞系和LGG肿瘤组织的lncRNA分析,研究者利用一种新的计算框架,结合多种机器学习算法识别肿瘤浸润性免疫细胞相关lncRNA (TIIClnc) signature。

4.TIIClnc signature的免疫相关特征注释收集到7种免疫调节剂。计算T细胞炎症基因表达谱(GEP)、细胞毒活性(CYT)和干扰素γ (IFN-γ)。从TCGA数据库中收集肿瘤突变负荷(TMB)、微卫星不稳定性(MSI)、T细胞受体(TCR)丰富度、TCR Shannon和SNV Neoantigen。使用GATK4从湘雅内部数据集的RNA测序数据中搜索snp和indel。

采用基于来自genome Reference Consortium(基因组参考联盟)的智人基因组装配体“GRCh38”的方差分析方法对突变信息进行标注。进一步利用R软件包maftools的TMB函数计算湘雅内部数据集的TMB值。利用R包PreMSIm对湘雅内部数据集的MSI值进行预测。

如前所述,确定了6种免疫亚型和immunophenoscore(IPS)。采用肿瘤免疫估计资源(TIMER)算法、单细胞基因集富集分析(ssGSEA)算法、微环境细胞种群计数器(MCPcounter)算法和利用表达数据(ESTIMATE)算法估计恶性肿瘤基质细胞和免疫细胞,计算免疫浸润细胞的丰度和ESTIMATE评分。

收集癌症免疫周期,显示趋化因子和免疫调节剂的功能状态,并通过基因集变异分析(gene set variation analysis, GSVA)富集出114条代谢通路 。使用GSVA进行计算,GO和KEGG富集,并使用GSVA和GSEA进行量化。

5.为了进一步体现TIIClnc signature对免疫治疗反应的预测价值,使用GSE35640(黑素瘤)、GSE91061(黑素瘤)、GSE78220(黑素瘤)、Allen(黑素瘤)、Nathanson(黑素瘤)、IMvigor(尿路上皮癌)、Braun(肾细胞癌)、GSE179351(结直肠腺癌和胰腺腺癌)、GSE165252(食管腺癌)和PRJNA482620(胶质母细胞瘤)数据集预测免疫治疗反应,同时计算每个数据集的TIIClnc标记

GSE103668(三阴性乳腺癌)数据集用于预测靶向治疗反应(顺铂和贝伐单抗)。亚类图谱用于预测抗pd-1和抗ctla-4免疫治疗反应。本节也使用了Tumor Immune Dysfunction and Exclusion (TIDE)算法。

6.接下来是文章的实验部分,使用了湘雅的胶质瘤数据,做了RT-pcr数据,对LOC101928134和LOC100133461进行了表达量分析。

将三组转染sirna的THP-1细胞离心,使用无血清培养基重悬。调整密度为105个细胞/mL。上腔加入细胞悬液100 μL,下腔加入含10% FBS的1640 500 μL。培养48 h后收集下腔迁移的THP-1细胞,流式细胞术计数。后续做了细胞实验与染色。




实验结果


1、结果展示了TIIClnc信号的预后价值。这部分结果展示了各个算法组合后,对TIIClnc signature的筛选过程,并通过一系列生存分析和ROC曲线展示其重要性。


A.通过10倍交叉验证框架,共有101种用于TIIClnc signature的机器学习算法组合。通过TCGA-LGG、湘雅内部、CGGA-LGG和GSE108474等验证数据集计算各模型的c-index。
B.基于CoxBoost算法的16个最具价值的TIIClncRNAs展览。
C.基于RSF算法确定误差最小的TIIClnc signature树的数量,以及16个最有价值的TIIClncRNA的重要性。
D. TCGA- LGG、湘雅内部、CGGA- LGG和GSE108474数据集中TIIClnc signature得分高和TIIClnc signature得分低的患者的OS生存曲线Kaplan-Meier。
E. CGGA-LGG、湘雅内部、TCGA-LGG和GSE108474数据集1年、2年、3年、4年和5年OS的时间依赖性ROC曲线,显示了这组 signature具有较好的稳定性。

2、TIIClnc signature与其他模型的比较。通过不同数据集进行比对,并引入了其他随访数据进行比对。

A. TCGA-LGG、湘雅内部、CGGA-LGG和GSE108474数据集的TIIClnc signature、其他临床因素和组合signature的C-index。
B. TCGA LGG、湘雅内部、CGGA LGG和GSE108474数据集中的TIIClnc特征的1年、2年和3年校准曲线。
C. TIIClnc signature的C-index和TCGA LGG数据集中开发的其他模型。
D. TIIClnc signature的C-index和湘雅内部数据集中开发的其他模型。
E. TIIClnc signature的C-index和CGGA LGG数据集开发的其他模型。
F. TIIClnc signature的C-index和GSE108474数据集中开发的其他模型。

3、湘雅内部数据集中TIIClnc signature的免疫相关特征,TIIClnc signature与免疫细胞浸润与免疫调节进行热图分析,研究他们之间的相关。

A.显示TIIClnc信号与免疫浸润细胞相关性的热图。
B.显示TIIClnc signature与免疫调节分子之间相关性的热图。
C.显示两个TIIClnc signature评分组之间的CYT水平的小提琴图。
D.显示两个TIIClnc signature得分组之间的GEP水平的小提琴图。
E.显示两个TIIClnc signature评分组之间IFN-γ水平的小提琴图。
F.显示两个MSI组间TIIClnc水平的小提琴图。
G.显示两个TIIClnc signature分数组之间TMB水平的小提琴图。
H.两个TIIClnc signature得分组之间IPS级别的小提琴图。

4、TIIClnc signature对免疫治疗反应的预测价值,根据TIIClnc signature对数据集的评分对预后数据进行评价。

A. IMvigor数据集中TIIClnc评分高与TIIClnc评分低的患者间OS的Kaplan-Meier生存曲线。
B. IMvigor数据集中显示不同免疫治疗反应患者TIIClnc signature评分的箱线图。
C.显示GSE179351数据集中不同免疫治疗反应患者TIIClnc signature评分的框图。
D. Braun数据集中TIIClnc评分高和TIIClnc评分低的患者之间的OS生存曲线。
E. Braun数据集中显示不同免疫治疗反应患者TIIClnc signature评分的方框图。
F.显示GSE103668数据集中不同免疫治疗反应患者TIIClnc signature评分的方框图。
G.显示GSE165252数据集中不同免疫治疗反应患者TIIClnc signature评分的框图。Allen数据集中TIIClnc评分高和TIIClnc评分低的患者的OS生存曲线。
I. Allen数据集中显示不同免疫治疗反应患者TIIClnc signature评分的方框图。GSE78220数据集中TIIClnc高评分和TIIClnc低评分患者OS的J. Kaplan-Meier生存曲线。
K. Box图显示GSE78220数据集中不同免疫治疗反应患者的TIIClnc signature评分。Nathanson数据集中TIIClnc评分高和TIIClnc评分低的患者之间的OS生存曲线。
M. Box图显示Nathanson数据集中不同免疫治疗反应患者的TIIClnc signature评分。
N. Box图显示GSE35640数据集中不同免疫治疗反应患者的TIIClnc signature评分。
O. Box图显示GSE91061数据集中不同免疫治疗反应患者的TIIClnc signature评分。
P.湘雅内部数据集中基于TIDE算法的免疫治疗反应与TIIClnc signature评分组的联列表。
Q.基于湘雅内部数据集的子图分析,免疫治疗反应(anti-PD-1和anti-CTLA-4)和TIIClnc signature评分组之间的列表。PRJNA482620数据集中TIIClnc得分高和TIIClnc得分低的患者之间的OS生存曲线。

5、之后作者 通过实验验证进一步证明了分析的准确性

A.散点图显示了湘雅内部数据集中TIIClnc signature评分与CD8、PD-1、PD-L1之间的相关性。

B. Box图显示湘雅内部数据集中两个TIIClnc signature评分组之间基于IHC染色的CD8、PD-1和PD-L1的h评分水平。h评分用强度评分*数量评分计算。强度得分为0、1、2、3,分别为负、弱、中、强。数量得分0、1、2、3、4分别代表10%、10-25%、25-50%、50-75%、75%染色细胞的比例。H-score的取值范围为0 ~ 12。

C.湘雅内部数据集中两个TIIClnc signature评分组中CD8、PD-1和PD-L1的代表性IHC染色图像。


6、湘雅内部数据集中TIIClnc signature的功能注释,对 signature进行功能学分析,使文章与临床更巧妙的结合起来。


A.两组TIIClnc signature评分组癌症免疫周期差异的方框图。
B.基于GO和KEGG项的gsa显示TIIClnc标志评分与代谢通路、免疫相关通路的相关性蝴蝶图。免疫图雷达图显示了。
C. Kobayashi和D. Bagaev开发的TIIClnc signature评分和TIME signature之间的相关性。
E. GSEA的GO 富集中TIIClnc signature分数。
F. GSEA的KEGG富集中TIIClnc signature得分。




文章小结


研究者基于丰富的机器学习算法对纯化的免疫细胞、LGG细胞系和大量LGG组织的测序数据进行综合分析,开发出一种稳定、鲁棒的TIIClnc signature来分层LGG患者和预测免疫治疗的结果。其中的机器学习方法很值得我们借鉴。


END

不想错过每天的热点和技术
欢迎大家添加生信人为星标推荐

撰稿  ▎dingr
排版  ▎XX


最新思路推荐

细胞死亡

液体活检

单细胞


m6A专题


临床专题


更多生信问题咨询:18501230653(微信同号)

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/147628
 
430 次点击