Py学习  »  机器学习算法

利用基础模型的深度学习能力进行单细胞组学研究 || Nature Reviews Molecular Cell Biology

MCBRLab • 6 月前 • 189 次点击  
    2024 年 6 月26 日, Bioinformatics and Mathematical Biosciences Lab(团队详情在文末)在《Nature Reviews Molecular Cell Biology  || Comment》上见刊了一篇题为“Harnessing the deep learning power of foundation models in single-cell omics”的评论报道,其中指出基础模型在分析单细胞组学数据方面具有巨大潜力,但仍存在各种挑战,需要进一步的技术进步。在本评论中,作者讨论了在应用基础模型解析数据并改进单细胞组学下游任务中的进展、局限性及最佳实践。

有兴趣的读者也可以先看:
综述:基础模型在生物信息学中的应用 || National Science Review
Nature Methods || 2024 || Transformer在单细胞组学中的应用:综述与展望
Nature Methods || 2024 || 综述:在计算生物学中应用可解释机器学习——挑战、建议及发展机遇
综述:因果机器学习在单细胞基因组学中的应用 || Nature Genetics
综述:Transformer与基因组语言模型 || Nature Machine Intelligence
Cell || 综述:借助AI代理推动生物医学突破
Advanced Science|| 2024 ||  AutoBA : 用于全自动多组学分析的 AI 代理
AIDO|迈向 AI 驱动的数字有机体:用于预测、模拟和编程各个级别生物学的多尺度基础模型 || ArXivLabs || 综述
GeneGPT:基于ChatGPT构建的简单有效的单细胞生物学嵌入模型 || N Biomedical Engineering
TranscriptFormer:跨越15亿年演化的跨物种生成式细胞图谱-单细胞模型 || Quake Lab @CZI-AI
Nicheformer:用于单细胞组学和空间组学的基础模型 || Theis Lab @Helmholtz Munich
Tabula:面向隐私保护的单细胞转录组学预测基础模型(基于FL 和 TM)|| Qiu Lab @Stanford
OmiCLIP:一种连接组织病理学与空间转录组学的视觉-组学基础模型 || Nature Methods
AIDO.CELL:更大更全面的AI模型来分析单个细胞的全部基因表达 || Eric P. Xing @GenBio AI
UCE:通用细胞嵌入——细胞生物学的基础模型 || Quake Lab @Stanford University
scBaseCount:一个由AI代理整理、统一处理并持续扩展的单细胞数据资源库 || @Arc Institute

简介  

单细胞技术产生了海量的组学数据;“基础模型”作为深入分析和解读此类大数据的有力工具应运而生。基础模型通常在多个数据集上采用自监督预训练策略,包含大量参数,因此需要较高的计算资源,并展现出新兴的推理能力,使其能够适应广泛的下游生物学任务。基础模型之所以表现出色,得益于其表达能力强、可扩展性好、支持多模态输入、具备大容量记忆以及良好的泛化能力,这些特性使其在人工智能应用中效果显著,并有望推动分子生物学研究中的单细胞组学发展。

尽管单细胞组学技术正在快速发展,处于解析个体细胞分子特征的前沿领域,但单细胞数据仍存在一些持续性的挑战,例如数据体量庞大、注释信息不足以及生物学解释的复杂性。基础模型在单细胞组学数据分析中有以下几个主要用途:(i)提高大规模且噪声较多的单细胞数据的信噪比,并减少技术批次效应;(ii)大多数基础模型采用自监督训练策略,不依赖人工注释,从而高效利用细胞群体间的分布差异,缓解单细胞数据注释不足的问题;(iii)多模态整合能力和强大的记忆容量使基础模型能够理解单细胞数据的内在复杂性,例如多组学数据的整合与细胞功能的推断;(iv)基础模型通过大规模数据和多种细胞状态的观察,将关键生物学知识嵌入初始训练阶段。这种内嵌的知识使得基础模型可以广泛适应新的生物学问题而无需进一步训练,这一特性被称为零样本学习。例如,零样本学习能够让模型利用初始训练中多样化的组学数据预测不同细胞类型对新药物的反应,而无需专门针对药物反应进行训练。或者,这些模型也可以通过少量额外任务特定的训练进行微调以适应新任务。


开发用于分析单细胞组学数据的基础模型的最佳实践 

在使用基础模型分析单细胞组学数据方面,主要有两种方法:一种是基于单细胞数据预训练的模型,另一种是自然语言处理模型。基于单细胞数据预训练的模型包括一个初始的预训练阶段,在此阶段中,模型学习解读并识别大规模单细胞数据集中的模式;随后进入微调阶段,使模型能够更好地适应特定的下游任务,例如细胞类型注释、基因互作分析和细胞状态分类。此外,这类模型也可用于零样本学习。

相比之下,自然语言处理模型则借助已有的大语言模型(LLMs)的力量,并省去了大量的训练过程。通过利用提示工程中的先进技术,例如零样本提示,充分发挥大语言模型在问答和文本总结方面的卓越能力,将其应用于单细胞组学数据分析。由于一些机构(如OpenAI)已在预训练阶段投入了大量资源,自然语言处理模型显著减少了模型适配新应用所需的时间和资源。这两种方法——基于单细胞数据预训练的模型和自然语言处理模型——都可以通过一个基准测试系统来评估其有效性,主要指标包括模型的准确性与可解释性,以及其在推动新生物学发现方面的能力(例如发现基因表达程序)。补充表1全面概述了几种专为单细胞组学数据分析设计的基础模型最佳实践方案,涵盖了模型类型、预训练任务、下游任务及其所能提供的生物学洞见。

基础模型在单细胞数据分析中的局限性及可能的解决策略  

首先,训练基础模型所需的大量数据和计算资源限制了其在不同生物学场景下的可及性和扩展性,例如跨物种和跨模态的数据整合。其次,许多基础模型在可解释性方面存在挑战,因为在训练过程中所有参数是同时更新的,这使得难以判断来自单细胞组学的输入如何具体影响模型参数的某些部分,从而影响最终的预测结果,例如细胞类型的注释。第三,这些模型的鲁棒性是一个关键问题,其性能可能会因预训练与微调中噪声数据的影响、参数设置以及训练深度等因素而产生较大波动。

由于上述局限性,目前的单细胞基础模型在零样本学习环境下往往可靠性有限,可能无法超越基于特定数据集训练的精心设计的方法。这种表现不佳表明,这些模型的训练样本量和训练时间可能尚未达到成为真正意义上的“基础模型”的门槛,即尚不具备在零样本问题上展现新兴智能的能力。

为应对上述挑战,已有研究探索了一些可能的解决方案。针对高资源消耗的问题,可以通过开发更高效的训练算法、使用开源基础模型以及借助云计算资源来缓解。增强模型的可解释性是另一个研究重点,旨在阐明模型在预测过程中是如何做出决策的。例如,特征重要性分析可以突出哪些特征对模型预测结果影响最大。为进一步提升数据的可解释性并加深对预测依据的理解,研究人员正在探索新的解释性算法,如scGPT通过注意力机制和计算机模拟扰动方法识别用于分类细胞状态的关键基因。最后,提高模型鲁棒性的方法包括使用多样化的训练数据以及引入专门设计用于处理分布外数据的学习策略。例如,Geneformer通过应用迁移学习策略,在数百个实验数据集的基础上增强了模型对批次效应和个体差异的适应能力。通过逐步克服这些限制,基础模型在单细胞研究中的潜力将得以拓展,有助于弥合计算能力与生物学应用之间的差距,为当前庞大的单细胞数据集的整合与深入解析提供更多可能性,并推动单细胞生物学的发展。

基础模型的未来前景与应用展望 

未来在基础模型的结构设计、训练方法的发展,以及可解释性的提升和多模态数据整合方面的持续进步,将极大增强我们对复杂生物系统的分析与理解能力。利用跨物种和跨个体的大规模可训练参数数据集,有望使基础模型具备“新兴能力”,从而提升其生成与交互能力,并在使用有限数据时提高预测准确性,这将在新药研发和罕见细胞群体识别等任务中发挥重要作用。例如,由于基因表达分布的不同,基础模型能够自动检测训练数据中从未被注释过的罕见细胞类型。

在实际应用中,扩大数据集和参数规模往往成本高昂,且需要强大的硬件支持,这也促使我们需要更高效的手段来驱动大语言模型(LLMs)。基于图结构的基础模型为这一问题提供了一个有前景的解决方案。这类模型天然适配单细胞组学数据的结构,在捕捉细胞异质性和分子模式方面表现出色。一旦基于图的方法中的“过度平滑”问题得到有效解决,图模型与大规模参数基础模型的结合将显著提升单-cell组学数据分析的能力。图基础模型有望从稀疏且高度异质的数据中构建生物知识图谱,从而有效解析细胞间关系、基因调控网络以及单细胞空间结构。

多模态模型旨在处理和理解多种类型的数据输入或“模态”。一个典型例子是ChatGPT-4,它是一个能处理图像和文本输入并生成文本输出的大型多模态模型。结合双重染色组织图像、电子健康记录等多种信息的单细胞组学数据集,为探索基础模型提供了宝贵的资源。通过整合这些不同模态的信息,基础模型可以同时学习多种数据类型,从而实现对细胞分类体系和基本基因调控机制的全面分析。特别是包含临床流行病学数据和人口统计资料等在内的电子健康记录数据,与其他模态共同构建出具有精准临床诊断和先进治疗潜力的多模态基础模型。

在完成训练之后,如何适配基础模型以迁移至特定任务,是提升其在分子生物学与细胞生物学应用性能的关键环节。这些应用场景包括细胞类型注释、批次效应去除、多组学整合、遗传扰动预测、基因调控网络推断、药物发现、候选治疗靶点预测以及解释致病机制等。除通过额外训练数据对模型进行微调外,诸如零样本提示等替代策略也正在发展之中,旨在使模型能够在训练阶段未见过的小型任务相关数据上做出预测。借助这种方法,单细胞组学可用于发现新的疾病生物标志物。最终,经过良好设计并具备可解释性的模型可以深入解析生物系统并提供清晰的解释。例如,它们能够识别影响治疗结果的关键分子或细胞变量。因此,具备可解释性的基础模型能够从可解释的角度揭示疾病进展、细胞分化及其调控机制。归根结底,这些技术进步有望加深我们对单细胞生物学的理解,并架起先进计算方法与生物医学应用之间的桥梁。


文献原文及其他参考文献可以后台获取下载链接,关键词:250601(后台输入关键词250601,自动回复下载链接);针对研究论文中的分析,任何问题都可以留言询问。


我们也创建了一个交流群,平时大家可以一起学习交流,我们也会花时间维护(欢迎大家加入分享交流群,也希望大家多提需求,加群请第一时间看群公告):


团队信息 :  

Bioinformatics and Mathematical Biosciences Lab

[https://u.osu.edu/bmbl/lab-members/current-people/]

生物医学科学与人工智能 || Maria Brbic || Broad Institute (点击扫码观看)

单细胞和空间基因组学的新进展 (2025) ||  satijalab(点击扫码看)


LLMs时代的单细胞分析 || David van Dijk || Primer: Syed Rizvi (文章一作和通讯讲座报告)(点击扫码观看)

scGPT : 迈向生物学的基础模型 || Prof.Bo Wang(点击扫码观看)

AI 虚拟细胞模型:AI 如何加速科学发展 |Priscilla Chan & Stephen Quake(点击扫码观看)

更多资源欢迎关注B站(关注MCBRLab )  

其他参考基础模型:

Nature Methods || 大规模单细胞转录组学基础模型 || scFoundation

scGPT-spatial:面向空间转录组学的单细胞基础模型(scGPT || Nature Methods)的持续预训练

Nature || 2024 HCA || SCimilarity:一种用于大规模搜索相似人类细胞的细胞图谱基础模型-单细胞注释

Nature || 2024 HCA || 人类神经类器官的综合转录组细胞图谱-单细胞注释

Nature Genetics  || 2024 || 人类乳腺细胞图谱 || 单细胞图谱能够映射成人人体乳腺的稳态细胞变化

综述:利用最优传输技术分析单细胞和空间组学数据 || Nature Reviews Methods Primers

Nature Genetics || 利用高级统计方法(潜在嵌入多元回归)解析多条件下的单细胞组学数据

Nature Methods || 综述:单细胞多组学中的小样本方法:单个数据点的重要性

Nature Reviews Genetics || 综述:单细胞多组学时代的基因调控网络推断

参考文献:

Ma, Q., Jiang, Y., Cheng, H. et al. Harnessing the deep learning power of foundation models in single-cell omics. Nat Rev Mol Cell Biol 25, 593–594 (2024). https://doi.org/10.1038/s41580-024-00756-6

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182755