Py学习  »  机器学习算法

元码基因基于RNA靶向测序和机器学习的癌症组织溯源方法亮相2019 CSCO

测序中国 • 4 年前 • 377 次点击  
现有癌症诊疗体系中,明确原发部位是进行标准化治疗的基础,无法找到原发病灶将会大大增加有效临床治疗的难度,但是大约10%的癌症患者都会发生这种现象,这类癌症就称为原发灶不明转移癌(cancer of unknown primary, CUP)。此前,一项荟萃研究显示,CUP患者接受化疗后一年生存率为20%,五年生存率仅 4.7%。因此明确原发灶是临床上亟需解决的问题。
2019年9月18日-22日,第22届CSCO年会将在鹭岛盛大开幕。据悉,在本届中国临床肿瘤学界的年度盛会上,元码基因公司最新科研成果——基于RNA靶向测序和机器学习的癌症组织溯源方法将亮相本届CSCO年会。相关成果将以壁报形式(编号:P-60)进行展出。

癌种特有基因表达谱

识别肿瘤的组织起源

近年来,随着分子生物学和生物信息学技术的飞速发展,临床研究发现,转移灶肿瘤的基因表达谱与其原发部位组织的基因表达谱相似,而与转移部位相差甚远。因此,基因表达谱分子技术有望成为原发灶不明转移癌鉴别诊断的重要手段。在本项最新研究中,研究人员利用RNA-seq结合机器学习,通过分析大规模肿瘤患者(7,713例)基因表达谱,识别了包括肺癌、胰腺癌、胃癌、结直肠癌在内的20种肿瘤的起源(涵盖53个亚型,90% 的实体瘤)。

图:肿瘤组织溯源检测研发路径

通过以2000个决策树桩组成的随机森林模型,使用所有20501个基因对TCGA数据集进行交叉验证,研究人员得到最终的溯源准确率为95%。使用随机森林算法对每个基因的重要性进行评估并排序后,将基因精简至100个最重要的基因列表。通过仅使用这100个基因,重复了交叉验证,得到的各癌种平均精准度为95%。

图:该算法对于21种癌症的多分类ROC曲线

图:在实验数据集得到的准确率表格

同时,研究人员还基于中国人群临床真实样本,对该模型进行了测试。研究显示,通过该模型对包括肺腺癌、乳腺癌、结直肠癌、宫颈癌、胃癌在内的多个癌种,共计475例转移灶真实样本进行预测,溯源准确率可达到86.9%
以上结果说明,通过对肿瘤组织表达谱的分析,利用随机森林算法可以对肿瘤进行溯源,从而解决临床中原发灶不明的困境。此外,利用肿瘤表达谱,结合机器学习,其研究将扩展至肿瘤分子分型及乳腺癌预后评估等方向
图:基于RNA靶向测序和机器学习的癌症组织溯源方法发明专利申请初步审查合格通知书
据悉,目前元码基因基于以上成果的相关专利已经完成申请,包括:一种基于RNA基因捕获技术和机器学习的肺癌亚型分型方法、一种基于RNA靶向测序和机器学习的癌症组织溯源方法。
点击“阅读原文”,即可查看更多信息!

附:研究壁报(厦门国际会议中心2楼海峡厅前廊-学术壁报区  P-60)

· END ·

活动推荐


10月11日~12日,第六届国际三维基因组学研讨会”将在清华大学召开。

热文推荐

喜欢别忘了点“在看”哟!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/43750
 
377 次点击