今天为大家介绍的是来自Aristotelis Tsirigos研究团队的一篇综述论文。近年来,使用机器学习算法(MLA)在肿瘤学领域应用越来越广泛,特别是在药物发现、药物重用、诊断、临床试验设计和制药生产等生物医学应用领域。MLA能够根据疾病状态和治疗方法,为这些领域提供有价值的见解和预测。为了充分利用MLA在肿瘤学中的能力,理解这些算法背后的基本概念以及它们如何应用于评估治疗的功效和毒性非常重要。在这篇观点性文章中,作者提出了一些方法来代表MLA所使用的疾病状态和治疗药物,以帮助获取新的知识并进行相关预测。
MLA在药物开发中有许多应用,包括FDA批准预测、临床试验设计、药物再利用甚至新治疗靶点的产生。过去十年,该领域经历了快速发展,正在不断提高领域成熟度。作者在文章中讨论MLA的基础知识,并制定一个框架,介绍它们如何用于药物开发,内容专注于开发用于创建感兴趣的治疗和目标疾病的表示方法。然后,作者介绍了利用这些表示来预测新治疗的疗效和毒性的模型。肿瘤学领域一直是新疗法开发的重点,机器学习技术的重要进展也发生在癌症的背景下。作者深入探讨了细节并强调了主要在这一研究领域中可用的资源。
作者总结了治疗领域MLA模型的一般方法,如图1所示,并重点介绍了用于预测新治疗方案的功效和毒性的模型类型和其提供的见解(详见图2)。在特征方面,如图2A所示,可以将其分为两个关键领域:治疗和疾病状态的表示。在小分子和蛋白质治疗类型中,作者着重介绍了它们的内在结构和各种方法,以表示它们。对于疾病状态表示,作者总结了相关的组学信息。接下来,作者展示了图2B所示的模型类型,这些模型可以分别或同时利用两种特征类型。具体而言,作者强调了监督和无监督领域中的关键模型类型。最后,在图2C中,作者强调了每个模型可以生成的不同预测或见解。这些预测可以被归类为药物评估或药物设计。对于评估模型,治疗实体是预先定义的,要预测的值是其潜在的功效或毒性。对于药物设计,模型本身将为特定疾病状态生成潜在的治疗方案。生成的自动编码器可以在现有药物和它们的功效和毒性上进行训练,以生成新的治疗方案示例,这些方案是安全和有效的。
在监督学习中,研究人员通常利用大量标记数据的数据集来开发一个模型,该模型能够对新数据进行正确的分类。它在药物发现和设计方面具有广泛的应用,因为它可以用于评估新治疗的疗效、毒性和批准可能性。
在任何监督学习方法中,存在一种被称为偏差-方差折衷的潜在关系,这种关系源于必须考虑的两个主要问题。一个问题与生成有效规则所需的不足相关数据有关(偏差误差),另一个问题是生成的规则对用于训练的特定数据集过于具体(方差误差)偏差误差可以被视为欠拟合,指的是算法忽略了感兴趣特征之间的相关关系以及被预测的内容。方差误差,也称为过拟合,可以被认为是算法对数据变化的敏感性,在训练数据集上能够做出非常准确的预测,但在新数据上表现不佳。
基于它们所做的预测类型,监督学习模型可以进一步分为不同类别。主要的模型类型包括回归模型和分类模型。在分类模型中,感兴趣的预测结果将取几个离散的值之一(例如,在二元模式下取0或1)。用于评估药物是否会被批准或拒绝的模型就是这种类型的模型。关于回归模型,可以取任何连续值作为感兴趣的预测结果。如果我们想预测一种抗癌药物的疗效,我们将使用回归模型测量在体外抑制50%的癌细胞所需的药物剂量(IC50)。
无监督学习中,数据集是未标记的,模型旨在揭示数据的基本结构。主要的模型类型有:(1)降维,(2)数据可视化,(3)特征提取和(4)聚类。这些算法在方法和结果方面差异很大。
在降维方法中,高维数据(例如,一个包含10,000名患者的20,000个基因的转录组数据)被压缩为最具信息量的维度(例如,每个患者的2个维度)。有许多方法可以从这样的数据集中提取出最重要的维度。这些技术已经在之前的文献中进行了综述,包括主成分分析(PCA)、t-分布随机邻居嵌入(t-SNE)、线性判别分析等。每个算法都有独特的方法,但其基本概念相同。高阶数据被减少到更小的一组维度,然后可以用于可视化、特征提取或其他MLA模型中的预测性组分。
聚类算法可以用于查找数据集中的大规模结构。这些算法可以将数据集中的数据点分成指定数量的簇,并将每个点分配到其中一个簇中。聚类可以揭示数据集中的高阶结构,帮助确定不同条目之间的相似性。此类算法包括:(1) k-means聚类,(2) 层次聚类,(3) Fuzzy C均值聚类,(4) 均值漂移聚类,(5) 带噪声的密度空间聚类应用,以及(6) 高斯混合模型。此外,它们可以揭示某些数据集中的误标记,即原本属于一个组的条目被揭示为属于另一个组。聚类在药物设计方面尤其有用,因为它可以揭示可能更多或更少敏感于特定治疗方案的患者亚群。
自编码器是一种相对较新的无监督学习模型,它学习生成类似于输入数据的数据。将数据输入神经网络中,然后从神经网络开发的降维嵌入中重新生成数据。这些模型被称为生成模型(一种学习创建训练数据类型新示例的神经网络形式),因为它们根据输入数据的规格创建新的数据点。在药物发现中,这些模型可用于生成具有特定功效和毒性概况要求的新药物。
小分子通常被定义为分子量小于500 Da的有机化合物。小分子药物的大小允许以计算机可读的方式对其结构进行可控的表示。药物结构表示的一种方法是SMILE。注释系统使用一些句法规则,以允许以计算机可读的形式表示分子结构。SMILE结构使用字符来表示分子中的每个原子,并使用特殊字符来表示它们之间的键以及分子的高阶结构特性,如芳香性或环状结构。在ML和生成模型的上下文中使用SMILE引起了一个主要问题,即生成的SMILE可能不对应有效的分子。解决这个问题导致了SELFIES的开发,它修改了初始系统以确保所有生成的字符串都指向有效的化学分子。SMILES和SELFIES都不能直接用于ML模型,因为它们通常要求其输入以矢量化或数字形式表示,而SMILES是字符表示。
将SMILE结构嵌入的一种方法被称为指纹处理,其中将化学结构转换为预先确定大小的二进制向量,以捕捉原始化合物的结构信息。最常用的指纹处理技术之一是Morgan指纹处理。将化学结构二值化允许利用期望二进制向量输入的模型体系结构。自Morgan指纹处理以来,研究人员开发了其他指纹处理技术以扩展和改进该技术。通过指纹处理对治疗的分子结构进行向量化,使得可以利用多种需要数值特征的ML体系结构。
随着自然语言处理(NLP)模型的进展,化学结构嵌入的NLP方法近年来越来越受到关注。在这种情况下,SMILE / SELFIE字符串被标记化,并训练了一种特定的语言来嵌入化学结构。利用受NLP启发的模型使得模型能够捕捉所涉及分子内更大距离上的高阶关系。在许多不同的分类任务中,已经发现NLP方法优于指纹处理技术。
分子的graph表示法是捕捉分子的完整复杂性的另一种方式。在这种框架下,每个原子被编码为图中的节点,它们之间的连接构成边。创建分子图已成为一种例行操作,可以通过Python中的RDKit等软件模块轻松进行。使用图来表示分子结构已成为许多顶级药物疗效模型的标准特征。然而,它们需要模型体系结构的额外复杂性才能利用它们。因此,它们更适合用于较大的治疗剂,如蛋白质和肽。
蛋白质序列可以通过它们的物理特性或氨基酸序列进行嵌入。使用物理特性存在挑战,因为很难事先知道哪些特性最相关于学习任务。在过去的十年中,已经开发了多种嵌入氨基酸结构的方法。类似word2vec和doc2vec的NLP方法已被用于基于其上下文和周围单词开发单词或句子的学习特征。人们已经尝试将这些方法应用于蛋白质序列,通过将蛋白质序列分割成长度为k的片段。然后,蛋白质嵌入学习蛋白质序列中预期共同出现的片段。该方法随后可以与特定任务的学习相结合,以提取氨基酸序列相关方面的嵌入特征。
基于目标任务的特征提取方法是一种在NLP和半监督任务ML的基础上建立的方法。TAPE利用生物学上相关的任务从氨基酸输入中创建蛋白质特征。这些任务突出了蛋白质生物学的三个主要领域:(1)结构预测,(2)远程同源性检测,和(3)蛋白质工程。TAPE方法没有采用word2vec或doc2vec的方法,而是采用了其他NLP方法,即下一个token预测和掩码token预测。TAPE嵌入已被广泛采用,并已用于许多高阶模型,例如IBM的PaccMannRL。
蛋白质的graph表示已经被开发出来,非常成功地用于预测蛋白质的功能和相互作用。在这些图形中,每个节点都是一个氨基酸残基,图上的边包含有关残基之间距离和角度的信息。这种表示比用于卷积神经网络的三维结构表示有更强的可扩展扩展性。
ML模型也需要代表治疗药物旨在治疗的疾病状态的表示形式。经典方法是从遗传或蛋白质靶点的角度考虑疾病表示形式,这些靶点与疾病进展有关,药物将与之相互作用。ML辅助药物设计的早期集中在分子动力学建模与ML相结合,用于设计特定靶酶活性位点的治疗分子。将疾病状态表示为单个基因或蛋白质靶点的方法已经在其他地方广泛讨论过,而且最好在定量构效关系的背景下进行理解,这里不会涉及到。相反,作者将集中讨论更高阶的疾病状态表示形式,包括患病细胞的基因组、表观基因组、转录组和蛋白质组学特征,无论是体外还是从患有特定疾病的患者中获得的。
通过对患者或疾病状态模型进行基因测序,可以确定疾病状态的基因组学特征。基因组序列可以用于确定存在的关键突变,这些突变可能不同地影响疾病的发病和治疗结果。基因组突变可以是单核苷酸变异或单核苷酸多态性、插入、缺失、倒位等等。基因组突变谱可以被用作ML模型的特征。
表观遗传修饰对于全面理解生物状态过程至关重要。目前研究人员正在开发综合表观遗传信息的数据库,这是生物信息学中快速增长的领域。一个可以提供表观遗传信息的高度结构特征是可及染色质。人类转座酶可及染色质高通量测序提供了可及染色质的详细图,近年来相关工作迅速积累。
目前在计算生物学中使用最广泛的组学分析之一是转录组分析,该分析通过RNA-seq表达数据进行特征捕获。在这里,mRNA表达程度可以让我们了解在给定的细胞中哪些基因被激活和哪些被抑制。RNA-seq分析可以在细胞的总体群体或单个细胞上进行。高通量顺序RNA-seq还可以显示mRNA表达谱随时间或在空间上分离的细胞中的变化。
部分相关数据库会记录个体基因、转录因子、mRNA 和蛋白质之间的相互作用,作为生物学通路的一部分。Reactome、KEGG、Pathway Commons 和Omnipath是记录生物通路的主要数据库。它们可以用于构建基因组网络,创建疾病标记,并找出在疾病状态下特别受影响的通路。STRING数据库提供蛋白质间的物理和功能性相互作用信息,这些相互作用可用于与网络传播算法结合使用,找到感兴趣的基因组标记并减少组学数据的维度复杂性。这些数据库可以被利用和整合,创建对疾病状态基础生物学的整体视图。
虽然上述各种组学数据类型可以独立使用来预测药物反应,但结合多个数据类型的模型被发现会产生更准确的结果。研究人员已经开发了各种不同的结合临床和基因组数据的癌症患者模型。一种方法是使用自编码器将不同的数据类型压缩成低纬特征,然后再组合这些这特征。另一种是COSMOS(多组学空间因果定向搜索),一种系统的组学整合方法,通过因果推理系统地生成假设。COSMOS 生成跨组学网络,捕捉跨组学水平实体之间的关系。跨组学网络用于找到疾病亚型的标记或指纹。基因标记使研究人员能够使用更小的基因子集作为关键标记,从而降低生成组学数据的复杂性。
为了监测治疗药物的疗效,我们需要衡量药物有效性的指标。上述提到的细胞系资源也提供了每种治疗剂与癌细胞系组合的临床前疗效数据,以IC50的形式呈现。在癌症治疗方面,IC50是指抑制50%癌细胞所需的最小剂量。虽然IC50是潜在疗效的指标,但IC50值与药物批准之间的关系尚不清楚。IC50值是体外测量,因此不保证转化为临床疗效。此外,它也没有考虑所研究的治疗剂的潜在毒性。
在肿瘤学中,研究人员使用许多关键的临床终点指标来评估临床疗效。1.客观缓解率(ORR):对治疗做出定义性反应的患者所占的百分比,例如,肿瘤缩小或消失。2.无进展生存期:每个患者在没有疾病进展或进一步发展的情况下所度过的中位数或平均时间。3.总生存期:接受特定治疗的每个患者的存活时间的中位数或平均时间。将预临床细胞系方法应用于患者数据的一个特定挑战是,可用的数据集相对较少,其中包括病人的组学数据,治疗和响应。
任何寻求FDA批准的治疗药物都必须具有可接受的安全性。因此,能够预测新治疗药物的潜在毒性与评估其疗效一样重要。开发预测毒性的模型需要获取可靠的大规模数据来评估各种化学物质。美国Tox21计划是一个倡议,它开发了一些体外检测方法,利用定量高通量筛选生成大量化学物质的毒性测量数据。Tox21体外检测方法据称与动物模型在预测人体毒性水平方面一样可靠,并且在预测药物的不良反应方面具有明显的实用性。巨大的Tox21数据集已被用于开发多个ML模型,以预测毒性。最佳表现模型之一在预测Tox21数据时达到了0.88的ROC-AUC。毒性预测然后可以被其他更高级别的模型使用,以评估新可能治疗药物的批准可能性。
这篇文章中,作者概述了许多AI模型在药物发现和设计领域所采用的基本方法。作者回顾了模型类型、数据来源和每种方法可能提供的知识。随后,作者展示了这些模型利用预测的疗效和毒性来确定潜在治疗方法获得批准的可能性。然而,目前仍有许多正在积极研究的领域尚未涉及。在治疗代表性方面,大多数研究都集中在小分子疗法上,因为它们是最易操作的。预测高级治疗方法的疗效和毒性,例如大型蛋白质、mRNA疗法和细胞疗法,目前仍然缺乏相关研究。这些高级治疗类型及其相关表达是一个积极研究的领域,预计在近期会有显著的进展。
在表示疾病状态方面,作者研究了不同组学数据作为捕捉相关信息的方式。虽然这种方法适用于肿瘤和自身免疫性疾病等疾病,但并不直接适用于细菌或病毒性疾病。在那种情况下,更适合考虑相关病原体的表达。
在讨论的模型类型方面,作者提到了监督和无监督学习,但并未深入研究强化学习(RL)(一种通过定义代理、环境和成本函数来找到最佳策略的ML形式)或生成模型。在RL模型中,方法完全不同,因为研究人员必须事先定义一个状态空间或“环境”、一个在环境内具有明确定义动作的代理,以及要针对特定任务进行优化的成本函数。此外,这些模型可以与生成模型和疗效预测器相结合,开发出针对特定疾病状态的新型治疗方法。
在药物发现、评估和设计方面使用MLA仍处于起步阶段。尽管最近有了一些进展,但很明显,未来将有更加快速和重要的MLA应用。
Badwan, B. A., Liaropoulos, G., Kyrodimos, E., Skaltsas, D., Tsirigos, A., & Gorgoulis, V. G. (2023). Machine learning approaches to predict drug efficacy and toxicity in oncology. Cell Reports Methods, 3(2).