Cell 报道：华人学者团队提出一种基于深度学习的设计治疗方法 — GPS，以逆转疾病相关转录表型，仅从化学结构中成功捕捉转录组扰动特征

识别逆转疾病相关转录组特征的药物已被广泛探索用于药物再利用，但其在新药发现中的潜力仍未被充分探索。目前的虚拟药物筛选研究主要基于特定蛋白靶点或基于筛选数据训练的人工智能（AI）和机器学习（ML）模型进行对接;很少有研究利用了通常用于表征疾病和细胞状态的丰富转录组特征，这得益于转录组学技术的进步，尤其是单细胞 RNA 测序（RNA-seq）。识别逆转疾病相关转录组特征表达的药物已被广泛探索，作为发现药物再利用候选药物的策略。药物候选应减少上调疾病基因的表达，增加下调疾病基因的表达，从而恢复健康的转录表型。然而，这种方法仅限于已在数据库中谱写的化合物，不支持新型化合物筛选和优化，因此限制了其在早期药物发现中的广泛应用。

2026年3月17日，密歇根州立大学联合斯坦福大学医学院、密歇根大学及 Corewell Health 等在 Cell 杂志发表题为 Deep-learning-based de novo discovery and design of therapeutics that reverse disease-associated transcriptional phenotypes （基于深度学习的新发现与设计治疗方法，逆转疾病相关转录表型）的研究论文。该研究由 Jing Xing、Mingdian Tan 等共同第一作者完成，通讯作者为 Xiaopeng Li、Mei-Sze Chua、Jiayu Zhou 和 Bin Chen。其中，最后通讯作者 Bin Chen 现为密歇根州立大学儿科与人类发育系、药理学与毒理学系副教授，同时兼任计算机科学与工程系、流行病学与生物统计学系相关岗位。他的研究长期聚焦于利用大数据、计算方法与人工智能发现新的或更优的治疗候选物，尤其强调把患者数据、组织数据、体外模型和体内模型连接起来，服务于转化医学与药物发现。从学术经历看，Bin Chen 早期受训于化学领域，之后曾从事软件工程工作，随后在印第安纳大学伯明顿分校获得信息学博士学位，并在斯坦福大学 Atul Butte 团队完成生物信息学博士后训练；加入密歇根州立大学之前，他还曾在加州大学旧金山分校任教，并在 Novartis、Pfizer、Merck 从事过计算科学相关工作。这样的背景使他兼具计算、药物发现与生物医学转化三方面特色。

本文介绍了化学结构上的基因表达谱预测器（GPS），这是一个基于深度学习的药物发现平台，由转录组特征引导，能够筛选大型化合物库并优化先导分子。作者首先开发了一个模型- GPS，仅从化学结构中捕捉转录组扰动特征，并将其应用于文库化合物。优化评分方法，并采用树状搜索方法进行优化。通过结合结构-基因-活性关系，从转录组数据中揭示药物机制。评估跨多种疾病的 GPS，并在两例中进行了广泛验证。在肝细胞癌中，发现了两个具有良好细胞选择性和体内疗效的独特化合物系列。在特发性肺纤维化中，通过逆转单细胞转录组学衍生多种不同细胞类型的基因表达，鉴定出一种可再利用候选药物和一种新型抗纤维化化合物。

笔者认为这是一个以转录组表型反转驱动 AI4Bio 药物发现的一个新方法，很值得进一步联想扩展。这篇文章真正回答的不是“能不能筛药”，而是“能不能把疾病转录组本身变成可优化的设计目标”这篇文章真正回答的不是“能不能筛药”，而是“能不能把疾病转录组本身变成可优化的设计目标”，笔者本次将此工作模块化了13个部分进行读文学习，选其核心问题和发现进行深入地思考。

这篇 Cell 文章最重要的贡献，不是单纯又提出了一个深度学习模型，也不是把大化合物库做了一次虚拟筛选，而是把一个长期主要用于药物再定位的思想——“疾病相关表达谱反转”——系统推进到了 de novo 新药发现与 hit-to-lead 优化 。过去，转录组反转策略之所以有影响力，是因为它提供了一个非常吸引人的药理学逻辑：如果疾病状态可以被表示为一组稳定的上调与下调基因，那么一个有效药物应该倾向于压低那些在疾病中异常升高的基因，同时提升那些在疾病中异常降低的基因，也就是把疾病细胞从病理转录状态推回更接近健康或更不致病的状态。问题在于，这个思路长期依赖已有扰动数据库。也就是说，只能在“已经测过表达反应的药物”里找答案，而不能直接面对数百万未测过的化合物，更无法顺畅地进入先导优化阶段。本文真正做成的，是把“表达谱反转”从一个 数据库查询问题，改造为一个 可学习、可搜索、可优化的设计空间。

Abstract Figure

作者提出的 GPS（Gene expression profile Predictor on chemical Structures）平台，本质上是把药物发现流程改写为三步：第一步，不再等待实验先测出化合物的转录组扰动，而是直接从化学结构预测该化合物会使哪些基因上调、哪些基因下调、哪些基因基本不变；第二步，把这个预测扰动与疾病签名做匹配(CMap 思想)，计算所谓“反转分数”，从而在超大规模化学空间中快速筛出候选；第三步，不把得到的 hit 当作终点，而是继续通过多目标搜索在化学空间中寻找具有更强反转能力、同时又具备更好成药性和可合成性的分子。这意味着，转录组不再只是描述疾病的一个“观测层”，而开始成为一个 药物设计层。从 AI4Bio 的视角看，这一步尤其关键，因为它把生物学高维表型直接放进了模型，不局限于单一靶点预测、分子对接或纯化学相似性搜索。

GPS 框架与性能

更进一步看，这篇文章还试图回答另一个有意思的问题：如果模型是用“结构→表达扰动”的方式学习出来的，那么这些表达扰动除了能给出排名，还能不能帮助解释机制？作者给出的答案是可以部分做到，于是他们又引入 SGAR（structure-gene-activity relationship）分析，把“结构变化—基因响应变化—活性变化”串联起来，让转录组不只是筛选标准，也成为机制线索来源。于是整篇文章真正形成了一个完整链条：结构生成表达，表达决定反转，反转指导筛选，筛选结果再通过表达解析机制。这就是本文最核心的 AI4Bio 思想：把生物表型从验证终点提升为Query引擎。

一、论文的核心问题意识：为什么传统 target-based screening 在这里不够用

作者在引言中首先指出，现有虚拟筛药大多仍围绕蛋白靶点展开：要么依赖结构生物学意义上的 docking，要么依赖特定实验筛选数据训练的 AI/ML 模型。这样的路线当然有效，但它隐含着一个非常强的前提，即必须事先知道哪个蛋白靶点是最关键的，而且药效最终要能通过这个单靶点主导解释。问题是，很多复杂疾病并不满足这一点。肿瘤、纤维化、神经退行性改变这类疾病，往往不是由单一节点驱动，而是由多个通路、多类细胞状态和组织微环境共同塑造。也正因此，单靶点路线往往会在两个地方遇到瓶颈：第一，前期目标识别本身就不充分；第二，即便选中了目标，也未必能覆盖疾病的真实系统状态。

这篇文章之所以把 bulk RNA-seq 和 single-cell RNA-seq 放到药物发现入口，就是因为作者认为这些数据并不是只适合“描述疾病”，而是可以直接成为“定义治疗方向”的依据。对他们而言，疾病的关键不只是某个突变位点或者某个受体，而是整个细胞群或组织在转录层面的异常稳定状态。如果一个药物真的有治疗潜力，它至少应该在这个层面上表现出某种方向正确的系统性修正能力。因此，相比 target-based 方法，本文的方法更像一种 phenotype-based 设计，只不过这个 phenotype 不是传统高内涵成像里较粗糙的形态学终点，而是更高维、更接近分子机制的转录组表型。

GPS 数据、性能及应用摘要的详细信息

在 HCC 中，这一点体现得非常明显。作者明确指出，肝细胞癌临床异质性高，缺乏足够有效的治疗选择；而在 IPF 中，问题则是病理过程涉及多类细胞群以及强烈的组织微环境依赖性。对这类问题而言，若仍强行将药物发现压缩成“寻找一个最关键靶点”，就容易遗漏真正决定疾病进程的表型网络。因此这篇文章的价值，并不只是提出一个新模型，而是重新界定了“什么才是药物筛选中值得被优化的对象”。在这里，被优化的对象不是单一蛋白亲和力，而是 疾病转录表型的反转能力。

二、GPS 框架的总体逻辑：从结构到表达，再从表达到药效

GPS 的基本任务是：输入一个化合物的化学结构，以及某个基因的功能特征，输出这个化合物对该基因表达的作用方向。作者把这个问题离散化为三分类：上调、下调、无显著影响。这个建模选择表面上看是为简化问题，但实际上非常有策略意义。因为在真实高通量表达数据中，连续型表达变化的噪声很大，复制间一致性有限，如果直接回归 Z-score，很容易让模型学到大量实验误差；而离散到 up/down/no-change 后，模型学习的是方向信息，这与后续反转打分恰好高度一致，也更接近药物筛选真正关心的信号。

GPS 推断化合物转录组特征的生物学见解

从数学上看，GPS 学的是一个条件概率模型：

其中，表示化合物的结构特征，表示基因的功能表示，则表示该基因在药物作用下的调控方向。文章中，化合物特征主要使用 ECFP4 指纹，基因特征使用 GO term 嵌入。于是，GPS 并不是为每个基因单独训练一个模型，而是在统一模型中学习“结构—基因—调控方向”的共享映射：

满足：

这一建模的优势在于，它把“药物对单个基因的影响”嵌入到一个共享参数的多任务问题中，避免了逐基因独立建模时的严重过拟合。更重要的是，它允许模型在基因之间迁移学习：如果若干基因在 GO 功能空间中接近，那么模型可以共享关于它们如何响应某类化学结构的信息。

文章在结果部分强调，训练数据虽然只覆盖 978 个 landmark genes，但借助 GO 嵌入和校准数据，最终可高置信预测的基因集合扩展到 2198 个。这一点的意义不是单纯“预测更多”，而是说明模型并不是只记住了训练时出现过的固定基因，而是在一定程度上学到了“哪类功能基因更容易被某类化学扰动改变”的统计规律。作者进一步发现，这些更可预测的基因富集于细胞周期、核内转录调控和激酶相关生物过程，这其实也提示了一个重要事实：GPS 学到的不是整个转录组的均匀扰动，而是对某些药理学上更敏感的功能模块更有把握。这种不均匀性既是模型能力的来源，也是后续解释时必须警惕的偏差来源。

三、RCL：这篇文章数学上最关键的部分之一，不是“用深度学习”，而是“如何在噪声标签下训练深度学习”

如果说 GPS 框架是文章的外部骨架，那么 RCL（robust collaborative learning）才是它真正能工作的训练核心。因为 LINCS 这类高通量扰动数据并不完美，文章明确指出 phase I level 4 replicates 的平均相关只有约 0.5，不同阶段之间的复现中位数也不高。这意味着，如果直接把这些数据当作金标准监督标签，模型很容易把实验噪声、批次偏差甚至偶然异常都记住，最后表现为训练集很好、外部验证很差。

利用 GPS 预测化合物谱验证基因表达逆转

作者因此没有简单地“丢掉低质量样本”，而是引入了一个结合 self-paced learning 与 multi-network collaboration 思想的 RCL 框架。它的核心目标函数写作：

这里，是模型参数，是第个样本是否被纳入当前训练轮次的潜变量权重，是监督损失，控制纳入训练的难度阈值。文章中特别使用了 hard-thresholding regularizer：

那么对于给定模型参数，记单样本损失为

则与相关的目标函数变为：

因为这是关于的线性函数，所以最优解可以直接写出：

这一步推导非常关键。它意味着：在每次训练迭代中，模型不会使用所有样本，而只使用当前看来“损失较小”的样本。直观上，这些样本更可能是干净标签、更容易学习、或者至少与当前模型认知更一致的样本。于是训练不是一开始就硬吃全部数据，而是先学相对可靠的部分，再随着训练推进逐步扩大样本使用范围。这正是 self-paced learning 的核心。

但是文章没有停在单模型自筛样本，而是进一步引入了多网络协同。设第个网络在当前 batch 中选出的样本集为：

其中为 batch size，是第个 epoch 的 utilization rate。也就是说，每个网络只保留当前批次中损失最小的前样本。但 RCL 的精妙之处在于，第个网络并不直接用自己选出来的训练，而是使用其它网络决策融合得到的集合。作者定义了其它网络样本选择的交集与并集：

然后构造融合样本集：

这个设计非常值得细讲。表示“所有同伴网络都认为可靠”的样本，这部分显然应优先保留；表示“有些网络选了、有些网络没选”的不确定区域，这部分不是直接抛弃，而是按比例随机引入，从而允许早期保留分歧。也就是说，RCL 并不认为“快速一致”一定是好事，相反，它认为早期适度分歧有助于降低单个模型的 sample selection bias。直到后期模型更稳定时，才逐渐减少这种分歧。

这个“分歧到一致”的调度由融合率决定：

其中是切换 epoch，决定相对切换时滞，决定分歧衰减速度。对这个式子的理解非常重要。假如较小，那么从“鼓励分歧”到“趋于一致”的过渡会更快；若较大，则分歧会保留更久。数学上看，它本质上是一个从 1 单调衰减到 0 的 curriculum schedule；算法上看，它对应于训练早期更强调探索、后期更强调收敛。于是整个 RCL 可以理解为一个具有双重鲁棒机制的过程：第一层通过小损失样本选择对抗噪声标签；第二层通过多网络分歧融合抑制单模型偏差积累。

从 AI4Bio 的角度看，RCL 的意义在于：在真实生物数据中，标签噪声往往不是边缘现象，而是主导问题。很多生物学 AI 模型之所以看起来“方法高级但落地很弱”，不是因为网络不够深，而是因为监督信号本身质量不稳定。RCL 在这里提供了一个非常典型的范例：在高噪声生物监督任务中，训练策略本身和模型结构同样重要，甚至更重要。

四、重复实验质量加权：为什么作者在模型前面先做了一个“相似于经验贝叶斯”的标签净化

除了 RCL 之外，文章还有一个容易被忽视、但其实很关键的步骤：对同一 drug profile 的技术重复先做质量估计，再构造唯一 Z-score profile。设药物在某一条件下的第个重复的 978 维 Z-score 向量为，则作者先计算所有重复的简单平均：

随后计算每个重复与均值之间的相关性：

再取平均相关作为该 drug profile 的整体质量：

并据此构造最终的加权表达轮廓：

虽然原文写法在排版上略有压缩，但本质上就是一个以 replicate-to-consensus correlation 为权重的加权平均。这里的直觉是：与总体共识越一致的重复，越应获得更高权重。这个设计并不复杂，却很符合生物实验现实。因为在转录组扰动实验中，真正有价值的往往不是单次极端读数，而是重复间是否形成稳定方向。这个步骤相当于在正式建模之前做了一次“软去噪”。

更深一层看，这里隐含了一个统计假设：每个重复都在围绕一个潜在真实扰动波动，而 replicate-to-consensus correlation 可以作为“该重复距离潜在真值远近”的代理。如果把每个重复写成

那么相关性更高往往意味着更小。因此加权平均可以被看作一个经验型的最小方差组合。不过也要看到局限性：如果批次效应非常系统，而所有重复都被同样方向地偏移，那么相关性仍可能很高，却不一定逼近真实效应。也就是说，这一质量加权更善于处理“离散噪声”，不一定足以解决“系统性偏移”。这也是为何作者后面还需要 RCL，而不能只靠预处理完成全部校正。

五、基因可预测性筛选：为什么不是所有基因都值得纳入 GPS

文章在方法部分先对每个基因、每个细胞系做了一个基于随机森林的 predictability test。这个步骤非常重要，因为它承认了一个事实：不是所有基因的表达变化都能从化学结构稳定推断。对每个基因，作者用 ECFP4 特征做 10-fold cross-validation，并分别在真实标签与随机打乱标签上训练模型；如果真实标签上的 MSE 显著更低，且 Pearson ，则该基因被认为是 predictable。

这可以形式化为：对基因，若存在模型使得

并且

则将纳入训练目标集合。这个操作的意义并不只是“提高指标”，而是在建模哲学上承认了药物-基因作用存在显著异质性。有些基因的转录变化高度上下文依赖，更多受细胞状态、剂量、时间和反馈调控影响；强行要求模型对所有基因都预测，只会把难以预测部分的噪声灌入整体参数。作者最后在四个常用细胞系中得到 307 个较可预测的 landmark genes，并在外部 whole-transcriptome 校准后扩展到 2198 个高置信基因。这一筛选使 GPS 预测的对象从“全部基因”转变成“更接近可学习药理响应的基因子空间”，这也是后续 Z-RGES 能更稳定工作的前提之一。

六、Z-RGES：这篇文章在“评分函数”上的真正改进

文章在筛选阶段最重要的数学创新是 Z-RGES。传统 RGES 来自 connectivity score 的思想，其本质是看化合物上调基因与下调基因在疾病签名排序中的位置是否呈现反向富集。问题是，raw RGES 对基因集大小非常敏感：如果一个化合物只预测出少数几个变化基因，或者预测扰动过于稀疏，它反而可能更容易得到极端分数。这会导致一个危险偏差：筛选系统不是在偏好真正强力反转疾病的化合物，而是在偏好“碰巧动了很少几个基因”的化合物。

抗 HCC 候选药物的先导到领先优化

作者因此提出 Z-RGES。首先，把疾病签名中的所有基因按表达变化排序。设总基因数为，某个化合物上调或下调的基因集合大小为。定义这些基因在疾病排序中的位置向量为：

其中是化合物第个被调控基因在疾病排序列表中的位置。随后，参照 Connectivity Map 的 KS 型富集统计，分别对上调集和下调集计算富集分数。为方便理解，可以写成类似 GSEA 的 running-sum 形式：

或者在 Lamb 等人 connectivity score 的等价记法中，通过构造：

直观上，若化合物上调基因主要落在疾病排序靠下的位置，而下调基因主要落在靠上的位置，那么就意味着它在把疾病方向“往回拉”，也就更接近理想反转。

原始 RGES 的问题在于，和的极值分布会随着基因数发生系统变化。于是作者对每一个给定的上调集或下调集大小，随机采样同样大小的背景基因集合 1500 次，得到背景富集分布：

记其均值和标准差为与，则真实富集分数进行 Z 变换：

最终定义

作者给出的解释是：更负的 Z-RGES 表示更强的疾病签名反转能力。这个定义非常漂亮，因为它把“绝对富集强度”变成了“在同规模随机背景下有多异常”。从统计意义上讲，这一步把原本容易受基因数影响的量转成了近似可比的标准化量。于是化合物之间的比较更接近“谁的反转更显著”，而不是“谁动的基因更少”。

为什么这一点对 AI4Bio 很关键？因为 AI 模型输出往往带有强烈的结构性偏差。GPS 预测出来的上调/下调基因数本身就不是均匀分布的，如果直接拿原始 RGES 排名，实际上是在把模型偏差直接送入筛选排序。Z-RGES 的作用，就是在模型输出与药效排序之间增加一层统计归一化，把“模型输出的结构性差异”部分消解掉。文章中也的确观察到，Z-RGES 与 HCC 细胞活性呈显著负相关，而 raw RGES 没有显著相关。这说明作者真正优化成功的，不只是表达预测器本身，还包括 把预测结果映射成可用药效评分 的这一步。

七、 Z-RGES 并不是一个小修补，而是把转录组筛选真正推进到“可大规模使用”的关键一步

如果没有 Z-RGES，这篇文章其实很难成立。因为对于数百万化合物的筛选，真正起决定作用的不是单个化合物的表达预测是否“看起来合理”，而是评分函数能否在全库范围内稳定地区分潜在有效与潜在无效。一个不稳健的评分函数会让模型前端的所有努力在后端全部蒸发。Z-RGES 之所以重要，在于它处理了转录组反转方法长期存在的一个结构性痛点：不同化合物对转录组影响规模不同，而这种规模差异本身不应直接等价为治疗能力差异。

HCC 药物发现与 MoA 解析的 SGAR

从更抽象的角度讲，Z-RGES 做的是“条件背景归一化”。即在“给定调控基因数”的条件下，判断某个化合物的反转程度是否异常。这个思想在大多数 AI4Bio 筛选任务里都极具普遍性。无论是 motif enrichment、network propagation 还是 pathway activation，只要模型输出的统计量受集合大小或覆盖度影响，就必须在比较之前做规模条件化，否则模型很容易学会投机路径。换句话说，Z-RGES 并不只是这篇文章里的一个打分细节，它代表了一种重要的 AI4Bio 原则： 高维生物表型的可比较性，通常不是天然存在的，而必须通过统计归一化主动构造。

八、MolSearch：从“找到 hit”到“设计更好的 hit”，文章真正实现了表型导向的分子优化闭环

很多工作做到这里就结束了：能从大库里找到一些可能有效的 hit，就已经足够写成一篇筛选论文。但这篇文章更进一步，把表型反转变成了优化目标的一部分，并通过 MolSearch 实现了 hit-to-lead。MolSearch 是一个两阶段多目标 Monte Carlo Tree Search（MCTS）系统。第一阶段 HIT-MCTS 优先优化生物性质，比如更强的表达反转、更好的抑制效应；第二阶段 LEAD-MCTS 则进一步优化 drug-likeness、synthetic accessibility 和 solubility 等更接近药化需求的指标。

搜索树中的子节点选择效用定义为：

其中，是当前子节点平均奖励，是该子节点被访问次数，是父节点总迭代次数，是奖励维度，是探索强度系数。这个式子一眼就能看出是 UCB/UCT 类思想的多目标扩展。第一项鼓励利用当前已知更优分支，第二项鼓励探索访问不足但可能存在高价值的分支。式中加入，意味着在多目标场景下对维度复杂度做了额外惩罚，从而避免高维奖励空间中探索项过度膨胀。

仿真阶段，作者没有把多目标粗暴加权成单一 scalar reward，而是维护一个全局 Pareto pool。对于终止状态分子，若其属性向量为

与当前 Pareto 分子集合比较后，定义第个目标的奖励为：

其中是当前 Pareto 分子数，是第个 Pareto 分子在第个属性上的取值。于是奖励向量

反映了该终止分子相对于已有 Pareto 前沿在各个维度上的超越比例。这个定义很有意思，因为它避免了人为预先规定“表达反转比溶解度重要多少”“可合成性比药样性重要多少”这类本质上非常主观的权重。相反，它让不同目标在 Pareto 框架下自然竞争，搜索器只需要寻找那些在多维空间里持续改进的分子。

回传时，节点统计按标准 MCTS 方式更新：

这一步意味着每次模拟得到的多维奖励都会沿路径逐层积累，从而影响未来的选择偏好。

作者还指出，naive HIT-MCTS 在不同树深度使用相同探索-利用强度，会导致多样性不足，因此额外引入了深度相关温度约束。对子节点保留条件写作：

其中是最大树深，是父节点深度，为温度参数，文中取。这个条件的含义是：在浅层，允许更强探索，子节点相对父节点的性质改进要求较弱；越往深层，对“必须优于父节点”的要求越严格。这样做的目的，是在树的上层保持结构多样性，在树的下层逐渐收紧搜索，避免深层无效扩散。这个设计本质上是在 MCTS 里加入一个与深度耦合的 curriculum constraint，非常适合药化优化这类“早期广搜、后期精修”的任务。

从 AI4Bio 的角度看，MolSearch 的意义不在于“又用了 MCTS”，而在于它把生物学表型优化真正与药化属性优化放进了同一个搜索过程。换句话说，作者没有把“先做生物筛选，再单独做药化修饰”分割成两个孤立阶段，而是让二者在同一框架下相互制约。这是表型导向药物设计真正成熟的重要标志。

九、SGAR：文章为什么能够从表达扰动再往前走一步，触及机制解释

如果只有“结构→表达→反转→活性”这条链，文章依然很强，但还停留在高维 phenotype screening 的层面。作者进一步提出 SGAR（structure-gene-activity relationship），试图回答一个更有挑战的问题：哪些基因的变化最可能与药效提升有关？

设第个候选化合物的平均抗 HCC 活性记为（文中用多细胞系平均 IC50 表征），对每个基因，有 GPS 预测的调控状态。则作者对每个基因独立做秩和检验，判断该基因是否被调控与药效强弱显著相关。形式上，可以把这个问题理解成比较两类化合物：调控基因的分子与不调控基因的分子，其活性分布是否有显著差异。若显著，则该基因进入候选机制基因集合。

这不是一个因果模型，而是一个统计关联模型，但它非常适合文章当前场景。因为在先导优化阶段，作者已经有一批结构相关但活性不同的分子，恰好可以借用这种“近邻结构中的扰动差异”去寻找与活性最一致的表达响应。原文中，UHRF1 就是在这种分析中被识别为最突出的候选之一，随后又通过 RNA-seq、siRNA knockdown、western blot 以及患者空间转录组等多层证据进一步支撑。这里最值得强调的是：SGAR 的价值并不是一步到位证明“UHRF1 就是唯一直接靶点”，而是把原本几乎不可解释的表型 hit，压缩成了一个更窄的机制假设空间。这对 AI4Bio 十分重要，因为很多表型筛选工作的瓶颈正是“有 hit 但难解释、难推进”。

从方法论上讲，SGAR 展示的是一种非常典型的 AI4Bio 闭环：AI 模型先在高维表型空间中缩小候选分子，再利用同一表型空间中的系统变化模式帮助解释药理轴线。也就是说，表达谱在这里不是一次性的 ranking feature，而是 既用于发现，也用于解释。

十、结果部分应如何理解：HCC 和 IPF 不是两个并列案例，而是两个不同层面的证明

文章中的 HCC 案例，主要证明的是 GPS 是否真的可以用于 novel compound screening + hit-to-lead optimization。作者在近 700 万 ZINC drug-like in-stock compounds 中筛选，用 Z-RGES 排名，再选择结构多样但分数高的候选进行实验验证。结果出现两个非常关键的现象。第一，top-ranked 候选中有相当比例确实在 HCC 细胞中表现活性，这说明“结构→表达→反转”的链条没有在大规模筛选时崩掉。第二，在 PB56874852 这类 hit 的基础上，经 MolSearch 优化后，作者得到 MSU45302 一类分子，其 HCC 三个细胞系的 IC50 被推进到亚微摩尔水平，并伴随更好的体内暴露和异种移植瘤抑制效果。这说明表型反转不只是用于找 hit，还真的能引导 lead optimization。

而 IPF 案例证明的则不是“优化能力”，而是 single-cell transcriptomics 可以如何改变表型定义本身。在纤维化里，疾病不是单一细胞的事，而是上皮细胞、间质细胞、免疫组分以及微环境共同塑造的。作者没有满足于构造一个平均 bulk signature，而是从单细胞数据出发，为不同细胞群建立差异签名，再结合 PCLS 等更保留组织微环境的验证模型来测试候选。这样做的真正意义，是把“疾病表型反转”从单一向量扩展成了多细胞群、多层级的表型组合。也正因此，文章最终发现的 pyrithyldione 不只是“总体上抗纤维化”，而是与特定细胞群签名反转以及 myofibroblast fraction 降低相呼应。

十一、AI4Bio 药物发现的核心思想：推进“表型可设计化”

如果要用一句话概括这篇文章对 AI4Bio 的贡献，那就是：它把疾病相关转录组表型从被动观测对象，推进成了主动设计目标。

传统 AI drug discovery 很多时候在做的是以下几类事情：预测分子是否结合某蛋白；预测 ADMET；从现有活性数据中学习 QSAR；或者在生成模型里最大化某个单一分数。它们当然重要，但都默认一个比较狭义的药效表示。而本文的路线不同，它把高维生物表型——尤其是疾病转录表型——直接纳入设计环路中。于是 AI 不再只是替代化学家估计某个局部性质，而是在更高层次上回答：“这个分子是否能把疾病系统态往期望方向推动？”

这背后隐含的是一个非常重要的观念转换：药物不是为了优化某个孤立参数，而是为了改变系统状态。蛋白靶点只是这种状态改变的一种中介，而不是唯一入口。对于异质性强、微环境依赖重、单靶点解释不足的疾病，表型导向 AI 可能不是 target-based 路线的补充，而是更自然的主干。

本文还体现出 AI4Bio 另一个越来越重要的趋势：化学结构提供可搜索空间，转录组提供表型判据，单细胞数据提供细胞群分辨率，PCLS 和动物模型提供功能验证，SGAR 再把结果回写成机制假设。这个过程肯定无法线性串联，而是一种由 AI 驱动的层级压缩：从数百万分子到少数候选，再从数千表达变化到少数关键机制轴线。这种由高维表型驱动、又不断向低维可解释机制收缩的工作流，很可能会成为未来 AI4Bio 药物发现中非常重要的范式之一。

十二、这篇文章的边界与需要谨慎的地方：为什么“表型反转”仍然不等于“治疗因果”

尽管这篇文章非常强，但它并没有终结所有问题。最重要的一点是：表达谱反转不是治疗因果本身，只是治疗潜力的一个高维代理。 一个化合物可能通过强烈抑制增殖或诱发应激，得到看起来很漂亮的反转分数，但这并不必然意味着它在长期、体内、组织微环境中具有真正可接受的治疗效益。因此，表型反转必须始终与细胞选择性、毒性、药代和体内验证结合理解，不能被神化为单一真理。

第二，GPS 学到的实际上是“在训练分布中，结构对表达扰动的平均可学习部分”，而不是任意细胞背景、任意剂量和任意时间条件下的精确可转移因果模型。文章自己也承认，在非 10 μM、非 24 h 等条件下性能会下降。这说明当前 GPS 仍主要是一个在受限实验分布内建立的高效代理器，而不是普适药理学模拟器。

第三，SGAR 只能提供机制收缩，不足以直接证明直接靶点。像 UHRF1 这样的结果非常有启发性，但仍然需要进一步的结合实验、遗传互作实验和更完整的路径级验证来区分直接作用、次级反应和更远端转录级连锁效应。

第四，单细胞签名的选择本身会影响整个 IPF 筛选流程。换句话说，这篇文章虽然展示了 single-cell 数据的威力，但也说明未来 AI4Bio 药物发现里，“表型工程”会成为一个与模型工程同等重要的课题：你如何定义 disease signature，本身就是在定义你将发现什么样的药。

十三、可以如何理解这篇文章对未来的启示

这篇文章最有启发性的地方，在于它没有把 AI 局限于“预测某个已有指标”，而是让 AI 帮助搭建一个新的药物发现坐标系。在这个坐标系里，化合物不再首先按结构相似性或单靶点打分被组织，而是按它们在转录组表型空间中对疾病的作用方向被组织。于是，药物发现的核心问题变成：如何定义一个足够可靠、足够疾病相关、又足够可优化的表型目标；如何用模型把结构映射到这个表型；如何在多目标条件下持续改造分子，使其越来越接近理想表型；以及如何再从表型变化中抽取出机制线索。

如果未来这一范式继续发展，那么几个方向会非常自然地出现。第一，输入不应只限于化学结构，还应显式纳入细胞状态、剂量、暴露时间和基因背景，让“结构→表达”变成真正的条件生成模型。第二，表型目标不应只限于 bulk/single-cell RNA，也可以扩展到 chromatin、proteomics、spatial transcriptomics 甚至 morphology。第三，评分函数需要更系统地建模不确定性，而不仅是点估计后的 Z-normalization。第四，机制层需要从当前的统计关联进一步发展到真正的因果结构建模。到那时，AI4Bio 药物发现就不再只是把已有实验流程加速，而是会重塑“药是如何被定义和被设计出来的”。

结语：价值

回到全文最核心的一点，这篇文章之所以重要，并不只是因为它在 HCC 中找到了新系列、在 IPF 中找到了 repurposing candidate 和 novel compound，也不只是因为它把 single-cell data、PCLS、MCTS、SGAR 这些热门元素组合到了一起。它真正推进的，是一种更深的药物发现思想：疾病的高维分子状态不必只是分析终点，它可以成为设计起点；转录组不必只是用于解释结果，它可以直接参与定义什么叫“更好的分子”；AI 不必只替代局部打分器，它可以把化学搜索、生物表型和机制收缩连成一个体系进行评分。

从 AI4Bio 的角度看，这就是本文最大的启示。未来最有潜力的智能药物发现系统，未必是最会做 docking 的系统，也未必是单一 benchmark 上 AUROC 最高的系统，而更可能是那些能够把 结构空间、表型空间、机制空间和实验验证空间 真正联系起来的系统。GPS 还不是这个终局，但它已经非常清楚地展示了这条路应该怎么走。

附：Equation 学习

1. GPS 的条件概率预测

2. RCL 总体目标函数

3. Hard-thresholding regularizer 与闭式样本选择

4. RCL 中每个网络的小损失样本集合

5. RCL 的交集—并集融合

6. 重复实验质量加权

7. Z-RGES 的核心构造

8. MCTS 子节点效用

9. Pareto 奖励定义

10. MCTS 回传更新

11. 深度相关温度约束

其中，为最大树深，为父节点深度，为温度参数。

12. SGAR 的统计思想

若表示第个化合物的抗癌活性，表示其对基因的调控状态，则对每个基因检验：

是否存在显著分布差异。文中采用 rank-sum test 来寻找与活性最相关的候选机制基因。

很有意思且很有启发意义的一篇文章，笔者很喜欢～