Nat. Mater. | 利用机器学习和组合化学加速发现mRNA递送的可电离脂质

大家好，今天为大家分享一篇最近发表在Nature Materials上的文章，题目为Accelerating ionizable lipid discovery for mRNA delivery using machine learning and combinatorial chemistry。这篇文章的通讯作者是来自美国麻省理工学院的Daniel G. Anderson教授和现为加拿大多伦多大学的Bowen Li助理教授，Bowen Li也是该文的第一作者。

mRNA疫苗和疗法的开发在现代医药中具有革命性的意义，特别是在快速应对传染病 (如COVID-19) 方面显示出巨大潜力。然而，mRNA分子本身稳定性较差，需要通过适当的递送系统保护以达到治疗效果。脂质纳米颗粒 (LNPs) 是目前最有效的mRNA递送系统之一，其配方由可电离脂质、胆固醇、辅助脂质和PEG化脂质组成，其中可电离脂质在mRNA的装载与内体逃逸中起着关键作用，其化学性质的微小改变可以极大地影响生物功能。

但现有的可电离脂质选择和设计缺乏高效的系统方法，这限制了其应用范围和效率。作者所在团队一直在探索可电离脂质的高通量合成 (HTS) 策略，例如在之前工作中他们报道了利用一锅三组分反应来高通量构筑可电离脂质库 (Li, B. et al. Nat. Biomed. Eng. 2023, DOI: 10.1038/s41551-023-01082-6)，该方法可以在三维组合化学空间中广泛地筛选可电离脂质的性质。在本文中，作者更进一步，发展了一个基于Ugi四组分反应的HTS平台，该平台能够更有效地设计和合成可电离脂质(图1)。在此，可电离脂质结构被划分为四个组分：Amine head group, linker, tail 1 和 tail 2，分别对应于四组分中的反应物-胺、异氰酸、醛和羧酸。这种四组分方法可以促进更广泛的可电离脂质候选物的构建。

图1. 四组分反应用于高通量合成可电离脂质库

尽管Ugi四组分反应在脂质合成方面十分高效，但筛选这些脂质的mRNA递送效率仍然是一项劳动密集型和耗时的任务。因此作者整合了机器学习(ML)方法，以加快LNP筛选过程(图2a)。作者首先构筑了一个3×4×8×4共384个可电离脂质的文库(图2b)，其中每个单元的结构是根据一定的经验与理性设计而来的。作者在细胞层面上评估了这些可电离脂质在HeLa细胞中的RNA递送效率 (通过固定的LNP配方搭载荧光素酶mRNA, mLuc)，使用发光强度 (RLU) 来量化荧光素酶的表达(图2c)，以用于后续机器学习训练。

为了提高转染数据的质量和可电离脂质结构的多样性，作者还设计一个额外的文库。该文库简单说就是通过体内筛选选择了表现最好的八种tail 1、tail 2和linker的组合，再加入25种不同的胺header构建得到的(图2j)。具体而言，作者是在小鼠体内肌肉注射mLuc LNPs，通过观测注射部位的荧光强度来评估效果。由于工作量浩大，作者是用批次筛选的方法依次评估了tail 1(图2d、e)，tail 2 (图 2f、g)和linker (图2h、i)中表现最优的候选者。作者测试了这200种可电离脂质的mLuc转染效率 (图2k)，一共584个数据点用于后续机器学习。

图2. 可电离脂质库的高通量筛选

作者使用584种脂质的结构数据，加上相应的mRNA转染结果，用于训练机器学习模型(图3a)。首先将584个脂质的体外mLuc转染结果转化为二元结果(阳性/阴性)，由于二元训练数据集中的阳性率相对较低，作者使用了合成少数过采样技术 (SMOTE) 来平衡数据集分布。对于结构信息，作者使用开源软件PaDEL-Descriptor对每个成分 (Amine head group, linker, tail 1 和 tail 2) 分别计算了807个分子描述符，总共每个脂质计算了3228个描述符。通过清洗一些重复性和低方差描述符，最后每个可电离脂质含有2014个描述符。

作者利用这个二元数据集分别训练了三种机器学习分类模型：随机森林、逻辑回归和XGBoost (图3b-d)。其中XGBoost表现最优，分类器ROC曲线下面积0.983，精确召回曲线下面积0.987。因此作者最后选择XGBoost作为预测模型。并且对于head group, linker, tail 1 和 tail 2，作者也都分别确定了最有效的化学描述符(图3e-h)。

图3. 使用脂质筛选数据进行机器学习模型训练

接着，作者将训练好的模型应用于一个包含40000个脂质的新文库的计算机筛选，每组成分如图4a所示。由于算法有一定的随机性，作者用不同的随机种子运行了1000次预测，每次预测记录Top 50脂质，最后从所有汇总的这些脂质中，分析脂质中每个部分出现的频率(图4b)。作者选取每个部分出现频率最高的两种化合物，合成了2×2×2×2一共16个脂质用于后续验证(图4c)。在这16种脂质中，有三种 (119-23、169-23和569-6) 在表现出了与商业试剂相当的转染能力。

值得注意的是，119-23与通常的可电离脂质结构设计不同，它含有一个庞大的金刚烷基。通过优化LNP配方后，负载mLuc的119-23 LNP呈现球形、片层状形态，尺寸均匀，约为100 nm；并且相对于商业转染试剂SM102和MC3 LNP，转染效果明显增强(图4e, f) 。在静脉注射后，与MC3 LNP相比，119-23 LNP在肝脏中的转染效力高10倍，在脾脏中的转染效力高20倍。作者还使用由 Siegwart等人开发的SORT技术来实现LNP器官靶向递送，相比于之前具有最佳肺靶向能力的C12-200 SORT LNP，相同剂量下119-23 SORT LNP在肺部的mRNA转染效率提高了五倍之多(图4g)。

图4. 机器学习辅助脂质湿实验筛选验证

总的来说，本文将机器学习与高通量四组分合成反应结合，实现可电离脂质的加速筛选。作者利用该平台发现一种结构独特并且性能优异的脂质119-23，其在转染肌肉和免疫细胞方面的表现超过了目前商业的试剂。这种机器学习辅助的脂质发现平台有望加速促进RNA治疗递送系统的未来发展。

作者：ZHS 审校：ZXY

DOI: 10.1038/s41563-024-01867-3

Link: https://doi.org/10.1038/s41563-024-01867-3