Basic Information 英文标题:Bio-primed machine learning to enhance discovery of relevant biomarkers 中文标题:生物强化机器学习以增强相关生物标志物的发现 所属期刊:npj Precision Oncology 文章作者:David M. Henke | Lukas M. Simon 文章链接:https://www.nature.com/articles/s41698-025-00825-9 Abstract
Para_01 精准医学依赖于识别可靠的基因依赖性生物标志物,以便制定个体化治疗策略。 高通量技术的出现为探索分子疾病机制提供了前所未有的机会,但也带来了由于特征之间高维度和共线性所带来的挑战。 传统统计方法在这种背景下往往力不从心,需要新的计算方法来充分利用生物信息学中的大数据潜力。 在这里,我们介绍了一种新型机器学习方法,该方法扩展了最小绝对收缩和选择算子(LASSO)回归框架,以纳入生物学知识,例如蛋白质-蛋白质相互作用数据库,到正则化过程中。 这种具有生物学基础的方法优先考虑那些在统计上显著且在生物学上相关的变量。 将我们的方法应用于多个依赖性数据集,我们识别出了传统方法所忽视的生物标志物。 我们基于生物学的LASSO方法能够有效地从高维度共线性数据中识别出相关的生物标志物,弥合了统计严格性和生物学洞察之间的差距。 这种方法有望通过揭示新的治疗靶点和理解遗传和分子因素在疾病中的复杂相互作用,推动个性化医学的发展。 Introduction
Para_01 在精准医学中,确定可靠的基因依赖性生物标志物——细胞对特定基因的依赖程度,以生存或增殖——对于制定个体化治疗策略至关重要。 基因依赖性通常使用功能基因组筛选来测量,例如CRISPR-Cas9或RNA干扰,这些方法系统地敲除或抑制基因,并评估其对细胞活力的影响。 增加的依赖性被量化为当基因受到扰动时细胞适应性的降低,通常通过负依赖性评分来表示。 这些评分反映了携带扰动的细胞在群体中的丢失,表明该基因对生存或增殖是必不可少的。 此类测量提供了对癌细胞潜在脆弱性的关键见解,从而能够优先考虑治疗靶点。 Para_02 高通量技术的出现开启了生物信息学中的‘大数据’时代,提供了前所未有的机会来探索疾病的分子基础。 然而,这些丰富的数据也带来了显著的挑战,特别是由于其高维度性和分子特征之间的共线性。 传统的统计方法往往在有效分析这种复杂数据集方面显得力不从心,这促使了新型计算方法的发展,这些方法能够充分利用这些信息的同时减轻固有的局限性。 Para_03 在这些方法中,最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)回归已成为高维数据分析中特征选择和正则化的强大工具。 通过对其回归系数的绝对大小施加惩罚,LASSO 有助于识别一组预测性特征,从而提高模型的可解释性并降低过拟合的风险。
然而,尽管 LASSO 能够有效处理包含大量共线变量的数据集,但它并不固有地考虑所选特征的潜在生物学背景。 这一局限性凸显了需要在特征选择过程中整合领域特定知识的方法上的进步,确保所确定的生物标志物既具有统计稳健性又具有生物学相关性。 Para_04 加权LASSO通过引入特征特定的惩罚来扩展这一框架,这可以提高变量选择的一致性。 在此基础上,诸如加权图形Lasso(wgGlasso)、基于网络的基因集分析(Netgsa)和增强高维图形Lasso(AhGlasso)等方法将先验生物信息,如蛋白质-蛋白质相互作用(PPI)网络,纳入到特征选择过程中。 这些进展突显了加权图形模型将生物网络有效整合到统计分析中的潜力,提供了显著的优势,在可扩展性和性能方面。 虽然这些方法为网络结构提供了关键见解,但它们的应用主要局限于网络学习,并不直接解决预测建模中的特征选择问题。 这种区别突显了需要新的方法,将基于网络的推理与特征选择框架相结合,特别是在高维数据设置中。 Para_05 癌症依赖图谱(DepMap)是一个综合资源,旨在识别和编录广泛癌细胞系中的基因依赖性和脆弱性。 DepMap网络门户的可预测性标签提供了对给定基因依赖性或化合物敏感性特征如何与细胞系的基础基因组和分子(‘组学’)特征相关联的见解。 该门户提供两种不同的组学模型:第一个‘核心’模型利用最全面且无偏见的可用组学特征集,第二个‘相关’模型采用一组与目标基因相关的特征。 这两种模型都有缺点:‘相关’模型无法发现新的生物学知识,而‘核心’模型可能会选择一些统计证据略强但与目标基因无关的特征。
Para_06 在这篇手稿中,我们介绍了一种新的机器学习方法,该方法扩展了LASSO回归框架,将其纳入生物知识,如蛋白质相互作用数据库,到正则化过程中。 虽然该方法在这里是在基因依赖性生物标志物发现和蛋白质相互作用网络的背景下进行演示的,但其设计本质上是通用的,允许它应用于其他领域,在这些领域中,将结构化的先验知识与高维数据相结合可以提高预测性能。 潜在的应用包括药物反应预测、功能基因组学和系统生物学等。 通过利用现有的生物信息来指导特征选择,我们的方法优先考虑那些不仅在统计上显著而且在上下文中具有意义的变量,弥合了统计严谨性和特定领域洞察之间的差距。 Para_07 通过整合生物网络来应对高维和共线性数据集的挑战,我们的方法为跨多样数据集的预测建模提供了变革性的方法。 这种方法有望推动个性化医疗的发展,并超越这一领域,在这里理解遗传和分子因素之间的相互作用对于制定有效的个性化策略至关重要。 这项工作标志着朝着实现‘大数据’在生物信息学和转化研究中的全部潜力迈出的重要一步。 Results
Method overview 方法概述
Para_01 为了增强相关生物标志物的发现,我们将常用的机器学习方法LASSO扩展,通过应用专门的正则化来整合特征的生物学信息。 在一个典型的依赖性生物标志物分析中,因变量是目标基因的依赖性评分,自变量是全基因组分子谱,如拷贝数(CN)变异(图1A)。 稀疏性促进正则化技术,如LASSO,是生物标志物发现的流行选择,因为这些方法旨在从高维数据(如分子谱)中识别少量高度信息丰富的特征。 Fig. 1: Overview of the bio-primed LASSO framework for biomarker discovery.
- 图片说明
◉ 生物标志物发现分析将目标基因的依赖性与全基因组组学特征相关联。 ◉ 将如蛋白质相互作用网络等生物学网络的信息整合到 LASSO 正则化、生物启发模型中。 ◉ 因此,在特征选择过程中优先考虑与目标依赖性相关的特征,从而发现相关的生物标志物。 ◉ 逐步参数化过程首先优化 λ,然后优化 Φ 参数。 ◉ 使用优化后的 λ 和 Φ 参数拟合最终的 LASSO 模型,并且可以通过检查得到的系数来优先考虑具有生物学相关性的生物标志物。
Para_02 在标准的LASSO模型中,正则化参数λ使用交叉验证进行优化(图1B)。 对该参数的优化完成了传统LASSO的正则化过程,我们将由此产生的模型称为基准LASSO模型。 在λ参数优化后,我们引入了一个新的参数Φ,它表示将每个特征与目标基因联系起来的先验证据的强度。 这种证据可以从如STRING数据库等蛋白质相互作用数据库中得出,但不仅限于这些数据。 我们称由此产生的使用优化后的λ和Φ参数的模型为生物强化的LASSO模型。 为了选择信息性生物标志物,评估并解释了每个模型的特征系数。 Predict MYC dependency using RNA expression biomarkers 使用RNA表达生物标志物预测MYC依赖性
Para_01 我们首先将我们的方法应用于从针对17,386个基因的全基因组CRISPR敲除实验中得出的Chronos依赖性数据集,该实验涵盖了1,048种癌症细胞系。 我们着手寻找RNA表达生物标志物来预测致癌基因c-Myc(MYC)的依赖性。 RNA表达数据被过滤为在所有细胞系中表达的12,182个基因,并随后进行了z分数标准化。 这组基因被用作输入特征,以发现相关的生物标志物来预测MYC依赖性。 Para_02 使用10折交叉验证,推断出Φ参数的值为0.65(补充图1A)。 在生物引发模型中,总共分配了188个特征非零系数,并认为它们是相关的生物标志物(图2A)。 代表最具有信息量特征的最大系数被分配给了MYC基因本身的RNA表达。 基线模型和生物引发模型均识别MYC RNA表达为主要预测因子,这与癌基因成瘾范式一致18。 此外,从两个模型中得出的剩余预测因子的系数之间观察到了显著的相关性(图2B)。 接下来,我们计算了每个输入特征与目标依赖性的相关性。 将此信息叠加到从两个模型中得出的系数之上,揭示了具有正负LASSO系数的预测因子也分别显示出正或负的相关性(图2C)。 正如预期的那样,对于一个癌基因而言,MYC RNA表达水平与MYC依赖性呈负相关。 MYC RNA表达水平升高的细胞系对MYC更为依赖(图2D)。 Fig. 2: The bio-primed model identifies biologically relevant RNA biomarkers of MYC dependency.
- 图片说明
◉ 条形图展示了生物引物模型的所有非零RNA生物标志物的系数。 ◉ 散点图显示了基线模型(x轴)和生物引物模型(y轴)的系数。 ◉ 放大视图的散点图,排除了MYC,显示了基线模型(x轴)和生物引物模型(y轴)的系数,并用皮尔逊相关系数着色。 ◉ 散点图及其相关的皮尔逊相关系数和p值显示了RNA表达(x轴)和MYC依赖性(y轴)对于MYC、NCBP2和STAT5A。
Para_03 值得注意的是,一部分RNA生物标志物仅在生物引发模型中获得了非零系数,而在基线模型中没有。 基因集富集分析显示,仅在生物引发模型中识别出的生物标志物强烈富集了与转录调控和细胞凋亡相关的通路(补充图1B)。 另一方面,基因集富集分析显示,仅在基线模型中获得非零系数的生物标志物显示出较弱的富集信号。 这些结果表明,生物引发模型采用的特征优先排序方案有助于识别影响依赖性预测的连贯生物学过程。 Para_04 例如,STAT5A和NCBP2仅在生物预处理模型中获得了非零系数(图2C)。 STAT5A是信号转导和转录激活因子(STAT)家族的成员,先前已被确定为MYC的强大诱导剂19,20,21。 作为MYC的诱导剂,癌基因成瘾模型表明,升高的STAT5应成为MYC驱动癌症中的生物标志物。 相应地,我们观察到在STAT5 RNA高表达的细胞系中MYC依赖性增加(图2D)。
Para_05 NCBP2(也称为核帽结合蛋白亚基2)是帽结合复合物的一个组成部分,并且对于将剪接机器招募到新生mRNA是必需的22,23。 我们和其他人先前已经证明,MYC驱动的癌症对剪接体的扰动易感24,25。 我们观察到,低水平NCBP2 RNA的细胞系对MYC更加依赖(图2D)。 STAT5A和NCBP2 RNA水平与MYC依赖性的观察相关性表明这些基因作为MYC依赖性的相关生物标志物。 Para_06 为了广泛评估我们的方法,我们进行了以下分析。为了评估重复性,我们使用相同的输入特征和MYC依赖性作为结果变量进行了第二次独立运行。 从这两个独立运行中得出的生物强化模型的系数显示出强烈的关联,证明了跨运行的高重现性(补充图1C)。 Para_07 自从MYC RNA表达成为MYC依赖性的主要预测因子以来,我们试图测试在没有它的情况下我们的模型表现如何。 分析是在去除特征空间中的MYC RNA后重复进行的。 所有剩余基因的生物引子系数在原始模型和没有MYC RNA的模型之间显示出显著的相关性,突显了该模型的稳健性(补充图1D)。
Para_08 为了进一步评估我们方法对生物网络注释中噪声的鲁棒性,我们手动将MYC的证据评分设置为0,即可能的最低值。这确保了模型不会偏向于将MYC RNA表达作为生物标志物。 然而,模型还是给MYC RNA表达分配了一个很大的系数,表明即使在没有先前支持数据的情况下,该模型也能识别新的关联,并且能够抵抗不完整的网络注释(补充图1E)。 Para_09 为了评估我们方法的普适性,并提供一个应用于不同网络注释的使用案例,我们下载了仅限于实验验证的物理相互作用的STRING子网络。 来自使用完整STRING网络和物理相互作用子网络模型的生物强化系数表现出强烈的关联(补充图1F)。 值得注意的是,生物标志物STAT5A和NCBP2在该模型中仍然具有预测性。 此外,来自物理相互作用子网络的生物强化系数的基因集富集分析显示与使用完整网络获得的结果高度一致(补充图1B)。 最后,我们通过重复MYC依赖性预测分析并在每次运行中减少细胞系的数量(补充图1G)来评估运行时间性能。对于这个包含12,182个输入特征和1048个细胞系的数据集,运行时间大约呈线性增长,从50%的细胞系运行所需的50秒到全部细胞系运行所需的大约120秒以上。 对于该数据集,包括12,182个输入特征和1048个细胞系,运行时间增加了大约线性地变化,从使用一半细胞系时的50秒增加到使用所有细胞系时的略超过120秒。 总而言之,我们的基准测试结果表明,我们提出的方法快速、可重复、对标注中的噪声具有鲁棒性,并且易于适应不同的网络标注。 Predict EGFR dependency using copy number biomarkers
使用拷贝数生物标志预测EGFR依赖性
Para_01 我们接下来将这种方法应用于Demeter2(D2)依赖性数据集。 该基因依赖性数据是从针对707种癌症细胞系中的17,309个基因进行的全基因组短发夹RNA筛选实验中得出的26。 作为第二个用例,我们着手发现CN生物标志物,以预测使用D2评分测量的EGFR依赖性。 CN谱系中的连锁不平衡(LD)使得提取相关生物标志物变得特别困难,因为许多基因将携带相当的关联统计证据。 Para_02 我们首先计算了EGFR依赖性和每个基因的CN估计之间的相关系数。 这种全基因组相关性特征的可视化显示EGFR CN和EGFR依赖性之间存在强烈的负相关(图3A)。 正如预期的那样,由于是一种致癌基因,EGFR CN扩增的细胞系显示出对EGFR的依赖性增加(补充图2)。 Fig. 3: The bio-primed model identifies GAB2 CN as a biologically relevant biomarker for EGFR dependency and drug sensitivity.
- 图片说明
◉ 散点图显示了基因水平CN变异与EGFR依赖性(纵轴)之间的相关系数,横轴按基因组位置排序的基因分布。 ◉ 散点图展示了限制在第11号染色体上的相关模型(顶部)、基线模型(中部)和生物诱导模型(底部)的系数。 ◉ GAB2在生物诱导模型中被赋予非零系数,但在基线模型中没有。 ◉ 箱线图显示了根据EGFR和GAB2的CN增益组合分层的细胞系中的EGFR依赖性(纵轴)。 ◉ 条形图显示了前50个负相关中药物敏感性与GAB2 CN变异(横轴)之间的相关系数(纵轴)。颜色表示该药物是否靶向EGFR。 ◉ 箱线图显示了在CN中性EGFR的细胞系中,阿法替尼敏感性(纵轴)随GAB2扩增状态(横轴)的变化。
Para_03 有趣的是,我们在第11号染色体上观察到一个具有中等负相关性的第二个峰值(用紫色框标出)。 关注这一位点揭示了许多基因,这些基因在拷贝数(CN)和EGFR依赖性之间存在强烈的负相关(图3B)。 由于强连锁不平衡结构的存在,仅凭相关系数很难从该区域选择特定的生物标志物。 基准模型在这个区域内给USP35基因赋予了一个非零系数。 据我们所知,目前没有报道过USP35与EGFR之间的联系。 我们认为,基准模型选择USP35基因的原因可能是由于与潜在驱动基因的虚假关联。 另一方面,生物增强模型根据LASSO系数的大小确定GAB2拷贝数(CN)是该区域内最具信息量的生物标志物(图3B)。 GAB2(GRB2相关结合蛋白2)是一种适应性蛋白,在将信号从受体酪氨酸激酶(如EGFR)传递到涉及细胞增殖、存活和迁移的下游通路中起着关键作用(27)。 GAB2扩增可导致PI3K/AKT和MAPK通路的激活增加,两者都是EGFR信号传导的下游效应器(Gu等,1998),支持了GAB2扩增可能增强由EGFR驱动的致癌过程并增加癌细胞对EGFR活性依赖性的观点。 事实上,通过EGFR和GAB2拷贝数增益对细胞系进行分层分析表明,同时获得EGFR和GAB2拷贝数显著增加了对EGFR的依赖性,将GAB2拷贝数与EGFR依赖性联系起来(图3C)。
Para_04 这些数据表明,具有 GAB2 扩增的患者可能对靶向 EGFR 的药物更敏感。为了探索这一假设,我们分析了由 DepMap 资源提供的现有药物敏感性数据。 我们将来自癌症靶标发现与发展网络的 545 种药物的药物敏感性谱与 GAB2 CN 谱进行了相关性分析。 确实,一些关联性最强的药物敏感性正是 EGFR 抑制剂(图 3D)。 例如,具有 GAB2 扩增但 EGFR CN 中性的细胞系显示出对 EGFR 抑制剂阿法替尼(Afatinib)更高的敏感性(图 3E)。 Biologically informed biomarkers show stronger co-dependency 生物信息学支持的生物标志物显示出更强的相互依赖性
Para_01 为了系统地评估我们的方法,我们使用了D2依赖性数据。 我们首先确定了总共453个选择性依赖基因,这意味着它们仅在细胞系的一部分中表现出强烈的依赖性(见方法部分)。 鉴于这些基因的选择性依赖性特征,这些基因代表了有前景的癌症药物靶点。 我们假设这种选择性依赖性特征可能由基因本身的CN变异或生物学上相关的基因驱动。 因此,对这些基因依赖性的每个基因都使用基线和生物激发模型方法进行了CN生物标志物分析,目的是识别驱动这些依赖性的潜在基因组变异。 在453个目标基因中,有432个在两种方法中的至少一种识别出一个预测性的CN生物标志物(补充表1)。
Para_02 接下来,我们着手比较从基线模型和生物激发模型中得出的生物标志物。 对于每个基因,并确保区分能力,定义了两组互斥的生物标志物:1) 生物激发模型中得出的前20个正系数生物标志物,且未被基线模型识别。2) 基线模型中得出的前20个正系数生物标志物,且未被生物激发模型识别。 对于每组这些基因,我们使用皮尔逊相关性计算了每个目标与相应生物标志物之间的共依赖性。 Para_03 例如,UTP4是过程体的一个关键组成部分,过程体是一个大型核糖核蛋白复合物,参与核糖体生物发生的早期步骤,在CN和依赖性之间的多个相关性峰值中被观察到(图4A)。 生物引发模型在第16号染色体上具有最强全基因组关联的峰中识别出了UTP4。 这一结果与所谓的CYCLOPS模型一致,该模型认为部分CN丢失会产生特定于癌症的脆弱性。 基线方法未能识别UTP4,而是选择了靠近UTP4位点的不相关生物标志物。 据我们所知,这些标记以前均未与UTP4生物学联系起来。 Fig. 4: The bio-primed model systematically identifies CN biomarkers with significantly stronger co-dependency and biological relevance to target genes compared to the baseline model.
- 图片说明
◉ 散点图显示了基因水平CN变异与UTP4依赖性(纵轴)之间的相关系数,基因按基因组位置排序(横轴)。 ◉ 基线模型和生物预处理模型识别出的CN生物标志物分别用蓝色和红色表示。 ◉ 基因符号的大小与从任一模型得出的绝对系数成正比。 ◉ 点的颜色由染色体决定。 ◉ 仅由基线模型识别出的基因、仅由生物预处理模型识别出的基因以及两种模型都识别出的基因分别用红色、蓝色和紫色表示。 ◉ 箱形图显示了UTP4共依赖性,皮尔逊相关性(纵轴),由生物预处理模型(红色)和基线模型(蓝色)衍生出的最互斥的生物标志物(横轴)。 ◉ 生物预处理模型衍生出的生物标志物显示出显著更大的共依赖性。 ◉ 带有皮尔逊相关系数和p值的散点图显示了UTP4依赖性(纵轴)与CN变异以及共依赖性(横轴)之间的关联,对象分别为DDX10和BRIX1。 ◉ 每条趋势线的蓝色代表皮尔逊相关系数和p值。 ◉ 经验累积密度图显示了目标基因与生物预处理模型(蓝色)相比基线模型(红色)衍生出的生物标志物之间的共依赖性增强。
Para_04 为了评估共依赖性,我们接下来计算了UTP4依赖性和来自基线或生物引发模型的阳性系数衍生的CN生物标志物之间的相关性。 生物引发方法获得的生物标志物显示出比基线方法获得的生物标志物显著更大的共依赖性(Wilcoxon检验,p<0.01,图4B)。 没有一个基线生物标志物显示出与UTP4显著的共依赖性。 生物引发模型确定DDX10和BRIX1是全基因组相关性峰内的相关CN生物标志物。 这两种生物标志物仅通过生物引发方法被识别,并显示出了UTP4依赖性和CN之间的显著相关性以及与UTP4的共依赖性(图4C)。 值得注意的是,DDX10是一种DEAD-box RNA解旋酶,在通过参与前rRNA的加工过程中也参与核糖体的生物发生30,而BRIX1也被知参与核糖体的生物发生31,这表明生物引发模型选择的生物标志物直接与目标依赖性的生物学功能相关。 Para_05 这项全面分析表明,从生物引发模型中得出的生物标志物与目标之间的共依赖性显著强于从基线模型中得出的生物标志物(图4D)。 这一观察结果在更大的k值范围内保持一致(补充图3)。 因此,通过生物引发方法识别出的生物标志物比基线方法更相关于目标生物学。
Discussion Para_01 本研究的主要目标是开发和验证一种新的机器学习方法,该方法将生物学知识整合到LASSO回归框架中,从而增强对高维分子数据中基因依赖性生物标志物的识别。 通过将PPI数据纳入正则化过程,我们的生物引导型LASSO模型解决了传统统计方法的局限性,这些方法通常难以应对‘组学’数据集中的高维度和共线性问题。 通过这种基于生物学的方法,我们旨在优先考虑那些不仅在统计上显著而且在生物学上相关的特征,最终促进新型治疗靶点的发现,并推动精准医学领域的发展。 Para_02 传统LASSO的一个关键局限性是当预测变量高度相关时,其性能会下降,而这在生物学数据中很常见。 这一局限性促使我们开发了生物增强型LASSO,该方法结合外部生物学知识来指导特征选择。
通过利用蛋白质相互作用(PPI)数据,生物增强型LASSO优先从高度相关的预测变量中选择具有生物学意义的相关特征,解决了共线性的固有问题,同时保持了模型的稀疏性和可解释性。 未来的工作可以将生物增强的概念扩展到其他机器学习框架,如弹性网络或基于树的模型,以探索其在处理更广泛问题中的共线性方面的适用性。 Para_03 在我们的分析中,旨在预测MYC依赖性,STAT5A和NCBP2的RNA水平作为显著的预测因子出现。 STAT5A和NCBP2之前已被联系到MYC生物学,我们的生物增强模型确定这两个基因是MYC依赖性的相关生物标志物,而基础模型未能做到这一点。 Para_04 在我们的第二次分析中,我们发现 GAB2 的 CN 获得显著增强了 EGFR 依赖性,这表明 GAB2 扩增与癌症中的 EGFR 信号传导之间可能存在潜在的协同关系。 值得注意的是,我们在 DepMap 网站的"Predictability"标签上检查了 EGFR 依赖性。 GAB2 CN 或任何其他 GAB2 分子特征并未包括在最可预测的特征中,这表明我们的方法发现了一种被其他方法遗漏的生物标志物。 我们的研究结果强调了 GAB2 作为 EGFR 依赖性调节因子的重要性。 重要的是,即使在 EGFR 中性背景下,我们也观察到 GAB2 扩增的细胞系对 EGFR 抑制剂的敏感性增加,这表明 GAB2 扩增的患者可能从 EGFR 抑制剂中获益。
Para_05 我们的综合分析表明,所选的生物引物模型选择的生物标志物与目标依赖性的生物功能直接相关。 重要的是,这项比较设计旨在最大程度地减少对先前文献的依赖,而是利用系统化的、数据驱动的方法来评估所识别的生物标志物的相关性。 我们通过研究UTP4的CN生物标志物来举例说明这一点。 具有生物学意义的基因不仅代表稳健的生物标志物,还可以用于发现合成致死相互作用。 合成致死是指同时发生两个或多个基因的异常会导致细胞死亡,而仅仅一个基因的异常不会影响细胞的存活能力。 这一概念在癌症研究中尤为重要,因为它提供了一种策略,通过靶向与癌症特异性基因组异常合成致死的基因,可以选择性地杀死癌细胞。 在我们的研究中,由生物引物LASSO模型识别出的具有生物学意义的基因可以作为合成致死伙伴的候选者,从而开辟了新的癌症治疗方法的途径。 Para_06 我们方法的一个局限性在于它依赖于现有的生物数据库,例如STRING蛋白质互作网络,来进行生物优先正则化。 虽然融入生物学知识是一个优点,但这取决于这些外部数据源的完整性和准确性。 这些数据库中的任何空白、偏差或错误可能会影响特征选择。 此外,我们的方法专注于相互作用伙伴,这可能会限制发现当前相互作用数据库未能捕捉到的更复杂、多层次的生物通路中产生的新依赖关系。 此外,使用STRING置信度评分可能会过度简化复杂的生物关系,从而可能忽略微妙但重要的相互作用。 Para_07 另一个重要的方面是考虑我们实现的计算效率和调参优化。 原生的 glmnet 包使用 C++ 来高效优化 λ 参数。 相比之下,我们的基于 R 的实现直接在 R 中优化 Φ 参数,这可能会影响非常大数据集的可扩展性和执行速度。 虽然我们目前的方法是固定一个参数并按顺序优化另一个参数,但我们承认联合优化两个参数以进行更稳健的模型选择的潜在好处。
未来的工作可以探索将联合优化方法集成到此框架中,理想情况下使用一种更高效的编程语言,以增强可扩展性并处理更大、更复杂的数据集。 Para_08 我们提出的方法代表了一种可推广的方法,可以应用于本研究中展示的具体例子之外的各种环境。 虽然我们强调了使用两种蛋白质相互作用网络来指导正则化过程,但该框架是灵活的,并且可以根据上下文和可用数据整合不同类型的生物关联。 例如,可以整合调控网络、基因共表达网络或表观遗传修饰图谱,以反映与研究问题相关的潜在生物学过程的方式来指导特征选择。 这种适应性使我们的方法能够针对多种应用进行调整,无论是识别药物敏感性的生物标志物、预测基因依赖性,还是理解复杂疾病机制。 通过利用相关的生物学知识,我们的方法增强了所选特征的解释性和相关性,从而提高了在生物医学研究各个领域中的发现的稳健性和适用性。 Methods
LASSO implementation LASSO 实现
Para_01 在高维数据的情况下,观测次数远远少于预测变量的数量时,由于过拟合、共线性和稀疏性,传统的回归技术通常会产生较差的预测结果。 LASSO 框架是一种正则化技术,它通过惩罚过程将不具信息性的参数的系数收缩到零来去除这些参数。 基线 LASSO 模型使用十折交叉验证优化其超参数 lambda (λ)。 对于本文描述的分析,我们将 alpha,即岭惩罚参数,固定为零。 本文所述的基线和生物强化 LASSO 过程的方法是在 R 中开发和实施的,并借助了 glmnet 包。 在本研究中,我们固定了 alpha,即岭惩罚参数,等于零。 Bio-primed regularization 生物预处理正则化
Para_01 基于先前的工作13,36,我们通过将先验知识引入特征选择过程来扩展基线LASSO模型。 这一过程旨在精炼出与生物学相关的特征,而不仅仅是统计学上相关的特征。 为此,我们定义了一个特定于特征的正则化因子(μ),该因子表示特征对结果变量的重要性。 具有强先验证据的特征将具有接近1的μ值,而没有证据的特征将具有0的μ值。 在此分析中,μ值来源于STRING数据库提供的PPI评分。 Para_02 我们还引入了一个称为phi(Φ)的第二个调参参数,它考虑了先验知识的整体重要性。 Para_03
Para_04 这里的分析中,({\mu"})(_{j"}) 值由 STRING 数据库提供的第 j 个 PPI 得分定义。STRING 得分按最大得分的比例进行缩放。 记住,直接给我整理的结果,不要有除了结果的其他任何语句。通常情况下,待整理文本有多少句话,输出的 JSON 就有多少个条目。 Para_05 按照标准的 λ 优化程序,使用十折交叉验证计算了均方根误差(RMSE),以得出最优的 Φ。 最优的 Φ 由 Φ 与 RMSE 函数的拐点确定。 最终的生物激发模型使用推断出的超参数 λ 和 Φ 进行拟合。 Protein-protein interaction annotations
蛋白质-蛋白质相互作用注释
Para_01 PPI网络数据于2024年2月从STRING数据库网站(www.string-db.org)下载。 该数据针对Homo Sapiens生物体被纳入到LASSO正则化过程中。 STRING收集并根据来自多个来源的证据对相互作用进行评分:(i) 科学文献的自动化文本挖掘,(ii) 交互实验和注释复合物或通路的数据库,(iii) 基于共表达和保守基因组背景的计算交互预测,以及(iv) 在不同生物体之间系统转移的交互证据。 对于整个网络(9606.protein.links.v12.0.txt),所有有助于网络构建的交互证据都被整合为最终的‘综合评分’,这提供了STRING对其所提议的关联是否具有生物学意义的信心估计。 物理互作子网络(9606.protein.physical.links.v12.0.txt)专门关注直接的物理互作,其中蛋白质被已知或预测为彼此结合。 相应的评分被缩放到0到1之间,并整合到生物引物过程中。 使用biomaRt R软件包将蛋白质标识符映射到人类基因符号。 Dependency data 依赖数据
Para_01 Chronos17和Demeter239(D2)依赖数据以及包括拷贝数(CN)变异和RNA表达谱在内的分子数据于2022年7月从DepMap门户(www.depmap.org)下载(版本22Q2)。 来自癌症靶点发现和发展(CTD²)网络的药物敏感性数据于2024年7月从DepMap门户下载(版本24Q2)。 基因组信息,包括染色体名称和位置,是使用biomaRt R软件包38获得的。 Gene set enrichment analysis 基因集富集分析
Data availability
Para_01 我们的方法以及本研究中分析的数据集可以通过 Github (https://github.com/dmhenke/BioPrimeLASSO)免费获取。 PPI 数据可以从 STRING DB 网站(https://string-db.org)下载。 RNA 表达、拷贝数变异、DEMETER2 和 Chronos 依赖性评分以及药物敏感性数据可以从博德研究所的 DepMap 门户网站(https://depmap.org)获得。 Code availability
Para_01 我们的方法以及本研究中分析的数据集可以通过 Github (https://github.com/dmhenke/BioPrimeLASSO)免费获取。