大家好,今天为大家分享一篇最近发布在bioRxiv预印本上的文章,题目为Lab-in-the-loop therapeutic antibody design with deep learning。这篇文章的通讯作者是来自美国Genentech(基因泰克)公司Nathan C. Frey博士、副总裁Richard Bonneau教授和Vladimir Gligorijevic博士。
抗体药物开发面临高维序列空间搜索、多属性优化(结合力、表达量、免疫原性等)及高成本的挑战。传统的抗体发现与优化方法通常依赖于动物免疫或体外展示技术,这些方法在探索巨大的序列空间时既耗时又成本高;机器学习虽然在蛋白质从头设计上展现出潜力,但现有方法难以同时兼顾抗体的结合亲和力、表达量以及其他药物开发关键性质。
在本文中,为了解决传统抗体工程和基于机器学习抗体设计的局限性,作者建立了一个“Lab-in-the-loop”(LitL)系统。该系统利用深度学习生成模型产生大量候选抗体序列,同时通过性质预测模型(例如结合亲和力、表达量和非特异性风险的评估)对候选序列进行打分和排序;然后,通过主动学习的方式选择最有前景的设计进入实验室验证,并将实验数据反馈给模型,实现闭环迭代优化,湿实验系统可在4-6周内可平行生产数百个高质量点。作者利用该系统对四种抗原靶点
EGFR、IL-6、HER2和OSM的先导抗体进行了优化,每种靶点都发现了至少提升三倍结合力的抗体,同时兼顾了非特异性结合、表达量等参数,产生在药物发现中真正可行的候选治疗性抗体。
图1. Lab-in-the-loop系统的总体框架
该系统首先通过基因工程动物体内免疫和免疫库挖掘技术获得种子(seed)候选抗体(图1b),作为后续设计和优化的起点。作者使用多种生成式模型创建多样化的序列库来权衡不同方法之间的优劣,来平衡采样的质量和多样性(图1d),这些生成模型包括非引导采样Walk-Jump Sampling,和引导多属性优化采样方法如LaMBO-2等(图1a左上)。在每一轮中,所有生成模型对每个先导(lead)分子最多生成30000个设计,以防止任何一种方法通过蛮力支配全局选择,并节约下游计算成本。
对于模型生成的设计库,作者需要准确地估计它们的特性来最终决定合成哪些序列。作者利用性质预测模型(Property Prediction Oracles)来预测每个候选抗体的关键性质,如结合亲和力、表达水平、非特异性风险以及其他开发性指标(图1a右上)。
抗体有这么多性质,应该如何排序呢?作者使用的排序算法是选择非支配(non-dominated)的设计,即在属性空间的Pareto边界上的设计,标记的候选抗体在各方面预期至少与候选设计一样好或更好(图1a右下)。作者使用噪声预期超体积改进(Noisy Expected Hypervolume Improvement, NEHVI)采集函数来选择下一轮序列,以减轻属性测量噪声的影响,更好地平衡探索(exploration)和利用(exploitation)。
LitL包含高效的自动化湿实验流程,它可以在4-6周时间内并行生产数百个高质量数据点。当模型生成候选序列后,作者将其分割成几个具有重叠同源序列的DNA
片段,用Gibson组装拼接成一个完整的线性抗体表达载体,最后利用HEK293细胞在1 mL的规模上进行瞬时表达。表达出的抗体经过纯化后会检测其表达量,并通过SPR、BV ELISA等实验方法检测其结合亲和力和非特异性结合等指标。真实的实验数据还将用于反馈给模型,进而优化下一轮候选序列的生成(图1a左下)。
图2. 抗体亲和力与表达量的实验验证
为了方便起见,作者将亲和强弱用pKD表示(-log10(KD)),其值越大代表亲和力越强。图2a和图2b展示了所有的设计相比于先导抗体性质变化的分布情况,图2a中虚线为ΔpKD = 0.47712,表明该设计相比于先导抗体有三倍亲和力的提升;图2b中虚线为0.01 mg,是跑SPR实验所需的最低表达量;图2c展示了一个代表性的SPR
曲线;图2d展示了从四种抗原的十个先导抗体出发,在四轮中每轮最佳设计抗体的ΔpKD变化,虚线表示结合能力相对先导抗体提升了三倍,可以看到每一种抗体经过优化都得到了至少三倍亲和力的提升;图2e比较了22个高亲和力设计的预测pKD与实际测得pKD,验证了模型在预测结合亲和力方面的准确性;图2f用不同颜色标示了设计抗体与先导抗体(红色)的pKD值,展示了随着迭代轮次增加,设计抗体的结合亲和力不断提高的趋势。
图3. 多属性优化:可开发性与非特异性评估
作者还对设计的非特异性和蛋白表达量做了限制。图3a展示Therapeutic Antibody Profiler给出的四种指标(从序列中提取的抗体可开发性指标),蓝色为设计点,白色为先导抗体,大多数优化后的抗体设计均处于理想范围内,仅有一例稍超出预期,表明设计在提升亲和力的同时未牺牲其他关键性质;BV ELISA是一种用于评估非特异性结合的方法,作者利用一个经过训练的代理模型预测BV ELISA评分,得分低于1.0表示低非特异性风险,所有的设计都低于预测的风险阈值(图3c),说明设计抗体不易发生非特异性结合;图3d
展示了每一轮设计中,在结合亲和力与表达量这两个属性上的非支配(Pareto optimal)解,图中展示的前沿曲线表明,随着优化轮次的进行,系统能同时在两个指标上取得更优表现,实现了属性间的平衡改进。
文章还进行了计算建模和晶体结构解析。结构分析显示,不同的突变组合能够通过新型氢键及其他分子相互作用实现亲和力的显著提高,同时确保了整体结构的保守性。
总的来说,这项工作为抗体药物开发提供了一个高效、自动化的解决方案,通过闭环的机器学习和实验反馈,实现了对抗体多属性的系统优化,不仅大幅提升了候选分子的质量,也显著加快了药物发现的迭代速度。作者认为这种方法有望在未来实现端到端的药物发现流程,推动治疗性抗体研发进入新时代。
作者:ZHS
DOI: 10.1101/2025.02.19.639050
Link: https://doi.org/10.1101/2025.02.19.639050
上一篇