2025年7月23日,来自多伦多大学、辉瑞研发中心、诺和诺德等机构研究人员,在Nature Reviews Chemistry上发表了题为“Protein-ligand data at scale to support machine learning”的文章。
该文系统阐述了Target 2035计划(2025-2030)的核心策略:通过大规模生成高质量、开放的蛋白质-小分子结合数据集,并利用这些数据驱动机器学习(ML)和人工智能(AI)模型的开发与迭代,来加速针对“无配体先例”人类蛋白质的化学探针发现,最终目标是在2035年前为所有人类蛋白质找到有效的调控工具。
化学探针——那些高活性、高选择性、细胞活性的小分子——是生命科学研究和药物发现的基石。然而,目前绝大多数人类蛋白质(尤其是非传统药物靶点)缺乏有效的化学探针。发现新靶点化学探针的第一步是找到已验证的、化学上可操作的苗头化合物。对于研究充分的靶点,基于已有数据和经验库筛选通常可行。但对于大量“无配体先例”的靶点,苗头化合物发现效率低、成本高,仍是主要瓶颈。
计算手段,尤其是ML/AI,在开发高效、低成本的苗头化合物发现方法上潜力巨大。然而,其发展面临一个根本性障碍:缺乏高质量的、标准化的、开放获取的蛋白质-配体结合数据集。
现有公共数据库(如ChEMBL, PubChem)中的数据往往碎片化、非标准化、缺乏阴性数据(不结合的数据),且未针对ML/AI分析进行优化。数据匮乏被认为是开发高效苗头化合物发现算法的最大障碍。
Target 2035工作组提出了一项雄心勃勃但切实可行的五年计划(2025-2030),其核心思路借鉴了AlphaFold在蛋白质结构预测上的成功经验:大规模开放数据生成 + 社区协作 + 算法基准测试。但与蛋白质折叠问题相比,蛋白质与小分子(>10^60类药分子)相互作用的可能性空间更为巨大和复杂。因此,项目承认新型ML策略的必要性,并强调高质量、大规模数据集是解决该问题的基石。
项目的新颖性在于:
a. 规模与开放性:计划为超过2000种结构多样的人类蛋白质生成包含数百万至数十亿小分子结合数据点(包括阳性和阴性数据)的开放数据集。
b. 聚焦直接结合:选择亲和选择质谱(Affinity-Selection Mass Spectrometry, AS-MS)和DNA编码化合物库(DNA-Encoded Library, DEL)筛选作为主要数据生成平台。这两种方法直接测量小分子与纯化蛋白质的结合,无需预先了解蛋白质功能,且能标准化操作并产出带质量指标的ML就绪数据。
c. AIRCHECK数据库:建立名为AIRCHECK(Artificial Intelligence-Ready CHEmiCal Knowledge base)的专用数据库,以标准化、ML就绪的格式存储和开放所有注释好的筛选数据、验证数据和模型。
d. 预测-测试迭代循环:主动挑战ML/AI和计算化学社区利用AIRCHECK数据开发模型并进行预测。项目将组织基准测试挑战赛(如与CACHE合作),并通过实验验证社区预测的结果,将新数据反馈回AIRCHECK,形成“预测-测试-学习-改进”的闭环。
e. 开放科学原则:所有化合物、数据、算法在无知识产权限制(仅需署名)下开放共享,最大化社区参与和协作潜力。
项目工作流程(图1)清晰规划了从蛋白质到数据再到AI模型的转化路径:
项目设定5年内筛选至少2000种不同蛋白质的目标。蛋白质来源包括项目内部纯化中心、合作伙伴以及广泛邀请社区贡献(需满足严格的质量标准和多样性要求)。初期优先选择技术可行性高、已有或易于开发正交验证方法的靶点(如SGC已有的上千种蛋白质),后期逐步增加技术难度高的“新”靶点。
DEL筛选:利用DNA编码的巨大化合物库(>1万亿成员)进行筛选。项目创新性地将ML/AI深度整合到DEL数据分析中:利用包含数十亿数据点(含阴性数据)的DEL筛选结果训练ML模型,预测商业化合物库中的活性分子,再实验验证。这避免了传统DEL需大量合成验证的瓶颈,并扩展了探索的化学空间。项目将开放标准化DEL数据集。
图2 DNA编码化学库(DEL)筛选输出数据及机器学习/人工智能(ML/AI)工作流程示意图
AS-MS筛选:利用质谱直接检测与蛋白质共洗脱的化合物。项目利用其获取大量纯化蛋白质的优势,建立高通量AS-MS筛选平台(例如每月筛选40个蛋白,每月测量1-2百万次相互作用)。筛选结果同样开放。
数据存储:所有原始筛选数据、注释数据、验证数据(包括阴性数据)均存入AIRCHECK数据库,无使用限制。原始质谱数据也将通过Metabolomics Workbench等共享。
为确保ML数据集质量,项目高度重视区分筛选中的假阳性和假阳性。策略包括:
正交验证:对初筛候选分子,使用表面等离子共振(Surface Plasmon Resonance, SPR)、微尺度热泳(Microscale Thermophoresis, MST)、核磁共振(NMR)、热位移分析(Thermal Shift)等多种正交生物物理方法进行验证。
统一标准:设定结合亲和力阈值(KD≤10μM),并在经验丰富的中心实验室集中进行二次筛选和数据注释,确保数据一致性。使用标准操作程序并定期进行实验室间样本交换测试以监控和消除差异。
数据管理(AIRCHECK):AIRCHECK严格遵循FAIR原则(可发现、可访问、可互操作、可重用)。它使用受控词汇表标准化实验数据,提供强大的版本控制(数据营养标签),确保可重用性(提供完整文档、分析代码、教程),定期发布数据,并支持整合来自不同平台(AS-MS, DEL ML)的数据。云部署确保资源可及性,特别是对资源有限的研究者。
项目将与CASP、DREAM、CACHE等组织合作,发起一系列基准挑战赛(表1示例),鼓励社区利用AIRCHECK数据开发模型预测新结合物或优化现有分子。预测结果将由项目实验中心采购化合物并进行实验测试,结果公开并用于模型迭代。鼓励参与者开源其模型。
项目设计为开放科学公私合作伙伴关系(Public-Private Partnership, PPP),鼓励广泛参与:
蛋白质科学家:贡献纯化蛋白质。
计算科学家:贡献模型、预测和算法(通过MAINFRAME网络)。
化学家:通过开放化学网络(如SGC Open Chemistry Networks)设计合成分子,改进先导化合物,贡献可合成化合物到虚拟筛选库。
产业界与学术界:贡献筛选技术、协议、化合物库、进行验证实验。
Target 2035的这一阶段(2025-2030)旨在通过系统性生成开放的大规模蛋白质-配体数据集(AIRCHECK)和社区驱动的AI模型开发与验证,将苗头化合物发现从主要依赖实验转变为以计算为主导的过程。其长期目标是开发出能够高效预测“无配体先例”靶点结合物的计算算法,最终为成千上万乃至所有相关人类蛋白质提供免费的小分子配体起点。
为优先靶点发现新的小分子结合物;创建全面、注释良好的数据集以推进计算方法。
学术界:获得真实世界数据集用于AI药物发现研究;跨学科培训机会;有机会获得自己研究靶点的配体;免费的化学起点;标准化数据集用于新方法开发和基准测试;与产业界合作机会。
产业界:获得蛋白质和筛选试剂;前所未有的靶点的化学起点;接触和评估新的蛋白质/筛选技术;获取先进的ML模型;接触训练有素的科学家;与学术专家合作;资金杠杆效应。
政府/基金会:开放数据驱动经济增长;培养AI和药物发现人才;促进与制药和AI部门的伙伴关系;民主化早期药物发现。
项目治理采用多层委员会结构,确保公共和私营部门资助者的战略协调、高效运营和研究卓越。其开放科学原则(无IP限制)是项目成功的关键,旨在最大限度地促进协作和加速创新。
这条路线图不仅描绘了加速化学探针发现的蓝图,更代表了一种利用开放科学和大规模数据驱动AI变革药物发现早期阶段的范式转变。其成功实施将极大深化我们对人类蛋白质组的理解,并为未来的治疗突破奠定坚实基础。
参考资料:
Edwards, A.M., Owen, D.R. & The Structural Genomics Consortium Target 2035 Working Group. Protein–ligand data at scale to support machine learning. Nat Rev Chem (2025).
https://doi.org/10.1038/s41570-025-00737-z
感兴趣的读者,可以添加小邦微信加入读者实名讨论微信群
。添加时请主动注明姓名-企业-职位/岗位或姓名-学校-职务/研究方向。