社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Nat. Mater. | 利用机器学习和组合化学加速发现可电离脂质mRNA传递

DrugAI • 12 月前 • 413 次点击  

DRUGAI

今天为大家介绍的是来自Robert S. Langer与Daniel G. Anderson团队的一篇论文。为了充分发挥信使RNA(mRNA)疗法的潜力,扩大脂质纳米粒子的工具库至关重要。然而,脂质纳米粒子开发的一个关键瓶颈是识别新的可离子化脂质。在本文中,作者描述了一种加速发现用于mRNA递送的有效可离子化脂质的方法,该方法结合了机器学习和先进的组合化学工具。作者从一个简单的四组分反应平台开始,创建了一个化学多样性的584种可离子化脂质库。作者筛选了包含这些脂质的脂质纳米粒子的mRNA转染效率,并使用这些数据作为训练各种机器学习模型的基础数据集。作者选择了表现最佳的模型来探查一个包含40,000种脂质的扩展虚拟库,合成并实验评估了其中表现突出的16种脂质。作者得到了脂质119-23,它在多种组织中的肌肉和免疫细胞转染中表现优于已建立的基准脂质。该方法促进了多用途可离子化脂质库的创建和评估,推进了精确mRNA递送的脂质纳米粒子配方的发展。

RNA可以被编程以产生抗原,从而引发针对肿瘤和传染病的免疫反应;也可以生成因功能缺失突变而受损的基因的功能蛋白;或者暂时表达基因编辑器,例如成簇的规律间隔短回文重复序列(CRISPR)相关的RNA或DNA核酸酶。mRNA的治疗吸引力在于它能够靶向估计的85%的不可药物化蛋白编码基因组。合成的非病毒纳米粒子,特别是脂质纳米粒子(LNPs),已被证明在体内有效地将mRNA递送至特定组织或细胞。经典的LNP配方包括一种可离子化脂质、胆固醇、辅助脂质和聚乙二醇化脂质。可离子化脂质在mRNA加载到LNPs中和促进货物mRNA进入细胞质的内涵体逃逸中起着关键作用。


在过去的几年里,LNPs在临床上取得了重大进展,美国食品和药物管理局(FDA)在2018年批准了来自Alnylam的第一个小干扰RNA(siRNA)药物(Onpattro),以及在2020年分别来自Moderna和辉瑞/BioNTech的两种SARS-CoV-2疫苗(Spikevax和Comirnaty)。值得注意的是,这三种FDA批准的LNP配方中均包含一种独特的可离子化脂质。可离子化脂质的结构设计空间非常广泛,其化学上的微小变化可以极大地影响其生物功能。包括作者在内的多个团队一直在探索高通量合成(HTS)策略,以加速新可离子化脂质用于RNA递送的设计和识别。只有有限数量的化学反应适用于在生物相容性溶剂中进行的脂质高通量合成,这些反应可以在不需要催化剂或繁琐的保护/脱保护步骤的情况下进行。其中两个显著的例子包括Michael加成反应,涉及胺对丙烯酸酯的1,4-加成反应,以及环氧化物开环与胺的反应。然而,由于其二维性质,这些反应在可离子化脂质的多样性和结构灵活性方面具有固有的限制。

图1:一种用于可电离脂质HTS的4CR


为克服这一限制,作者团队之前开发了一种一次三组分反应(3CR)系统,由于其三维性质,可以加速可离子化脂质的创建。在这项工作中,作者引入了一种基于四组分反应(4CR)的新HTS平台,能够更有效地设计和生成新的可离子化脂质(图1)。概念上,可离子化脂质结构被划分为四个独立的元素:一个胺头基、一个连接基、一个尾基1和一个尾基2,分别对应4CR中的反应物——胺、异腈、醛和羧酸。这个4CR方法是之前3CR方法的进步,允许增加维度性和提高产率,从而促进更广泛的可离子化脂质候选物的创建。


可电离脂质的HTS与湿实验室的筛选


图2:HTS与可电离脂质库的筛选


尽管基于Ugi反应的4CR系统在脂质生成方面效率很高,但随后的这些脂质在mRNA递送效果方面的筛选仍然是一项劳动密集且耗时的任务。为了解决这一问题,作者整合了机器学习(ML)方法,以进一步加快LNP筛选过程。使用4CR系统生成的初始脂质库被评估以提供数据用于ML算法训练,然后可以部署该算法对更大的脂质库进行计算机模拟筛选(图2a)。通过4CR组装的第一个组合脂质库所使用的组件如图2b所示,其中包括三种胺(头基)、四种异腈(连接基)、八种醛(脂质尾1)和四种羧酸(脂质尾2),生成了384种化学多样性的可离子化脂质(3 × 4 × 8 × 4)。384种LNPs在HeLa细胞中的体外转染效力通过荧光素酶表达的发光强度进行评估,以用于后续的ML训练(图2c)。


为了提高转染数据质量和可离子化脂质结构的多样性,作者设计了一个附加的组合库,该库是通过体内测试确定的结构构建的。为此,作者在C57/BL6小鼠中对初始LNP库采用基于批次的策略进行了高通量体内筛选。具体来说,mLuc LNPs根据其可离子化脂质成分分批分组,每批LNPs通过肌肉内注射给小鼠,促进了需要进一步研究的脂质成分的识别。在初始批次中,包含相同尾1结构的可离子化脂质的LNPs最初被分组在一起(图2d, e)。四个由尾1结构1、2、4和6组成的LNP批次在小鼠注射部位的感兴趣区域(ROI)显示出优异的发光信号,并随后根据尾2结构进行进一步分类(图2f, g)。接着,含有四种最有前途的尾1和尾2组合的可离子化脂质的LNPs根据其可离子化脂质中的连接基进行分组(图2h,i)。最终,这个基于批次的筛选过程导致确定了八种经体内验证的表现最佳的可离子化脂质尾部和连接基组合(图2j, 左图)。


为了收集更多关于优化可离子化脂质的ML训练数据,通过将胺头基的数量从3个扩展到25个构建了另一个组合库(图2j, 右图)。这些头基与初始库中确定的八种最佳连接基和脂质尾组合结合。这200种新的可离子化脂质被用于配制mLuc LNPs,并用相同的方法在HeLa细胞中评估其转染效率(图2k)。最终,作者获得了584种可离子化脂质(384 + 200)的体外mRNA转染数据,这些数据将作为后续ML训练的基础数据集。


计算机模拟脂质筛选的ML模型训练

图3:利用脂质筛选数据进行ML算法训练


ML技术在药物发现和化学化合物筛选中展示了相当大的潜力。这些方法主要利用“训练”数据集和复杂的统计分析来预测新化合物的性能。尽管ML在设计用于mRNA递送的可离子化脂质方面的应用尚未广泛探索,作者旨在利用这种方法来帮助在庞大的库中识别有前途的脂质候选物。作者假设这些584种脂质的结构数据及其相应的mRNA转染结果可以用于训练ML算法(图3a)。这种策略可能会突出影响可离子化脂质mRNA递送性能的关键特征,并有助于从更广泛的库中识别出显著的脂质候选物。


作者首先将584种脂质的体外mLuc转染结果转换为二元结果。考虑到二元训练数据集中相对较低的阳性率,作者在将数据随机分割为测试集和训练集之前使用了合成少数类过采样技术(SMOTE)。这种方法有助于减轻ML算法可能引入的潜在偏差。为了将可离子化脂质的化学结构转换为ML算法可读的信息,作者使用了开源软件PaDEL-Descriptor,该软件为每个组件(胺头基、连接基和脂质尾A和B)计算了807个分子描述符,总计为每种脂质计算了3,228个描述符。为了提高描述符集的质量,作者应用了选择步骤,通过去除空值和低方差描述符来减少描述符数量。此外,对于每对高度相关的描述符,删除一个描述符以避免传递冗余信息。经过这种数据清理,生成并选择了2,014个分子描述符来定义每种可离子化脂质。


接下来,作者使用二元数据集评估了三种非线性ML算法的学习能力,分别是随机森林、逻辑回归和梯度提升。为了微调超参数,作者实施了随机搜索技术。该方法涉及从每个参数的预定范围内随机选择超参数值,这能够探索搜索空间内的各种区域,并在探索和利用之间找到平衡。搜索的随机性,而不是详尽地评估每个超参数组合,有助于覆盖广泛的值范围,从而提高识别最佳或近最佳配置的概率。


研究结果显示,梯度提升方法XGBoost的性能优于其他算法,其受试者工作特征曲线下面积(AUC)为0.983,精确度-召回率曲线下面积为0.987(图3b-d)。因此,作者选择XGBoost作为最终的预测模型。对于头基、连接基和两个尾部的每个组件,作者确定了最常见的成功化学描述符(图3e-h)。


ML辅助的脂质筛选和湿实验室验证

图4:ML辅助筛选一个扩大的脂质库和验证表现最好的脂质


随后,XGBoost算法被应用于一个新创建的40,000种脂质的库进行计算机模拟筛选,这个库是通过组合40种胺类、10种连接基、10种尾1和10种尾2构建的(图4a)。鉴于ML的随机学习特性,每次迭代可能产生不同的预测。为了减少这种变异性,作者使用不同的随机种子运行模型1,000次。在每次运行中从虚拟库中的40,000种脂质候选物中定位高价值脂质。通过选择每次运行中的前五十种脂质,作者聚合了一个包含50,000个主要脂质候选物(包括重复项)的列表。作者在这50,000个顶级候选物中确定了每个脂质组件(胺类、连接基、尾1和尾2)最常出现的两个结构,并使用它们合成了16种新脂质(图4b, c)。随后,作者配制了用于mLuc LNPs的可离子化脂质,并通过肌肉内注射在小鼠中单独测试每一种。值得注意的是,在合成的16种可离子化脂质中,有三种(119-23、169-23和569-6)在肌肉中的mRNA转染能力(ROI > 1 × 108)与商业基准——用于Alnylam的Onpattro中的离子化脂质Dlin-MC3-DMA(MC3)和用于Moderna的Spikevax中的离子化脂质SM102相当。这种识别高性能脂质的简化方法比传统方法更为高效,传统方法需要在湿实验室中大量合成和筛选整个40,000种脂质库。


在使用实验设计方法优化配方后,mLuc负载的119-23 LNP在透射电子显微镜下显示出球形、层状形态,大小约为100 nm,并且相比于SM102和MC3 LNP,在肌肉内转染效率显著提高(图4e)。注射后24小时,含hEPO mRNA的119-23 LNP在血清中显示出显著高于MC3 LNP的hEPO表达。虽然注射后的荧光素酶转染有显著差异,但SM102和119-23 LNP之间的血清hEPO表达水平相当(图4f)。作者推测这可能反映了荧光素酶(非分泌蛋白)和hEPO(分泌蛋白)之间的分泌差异。


与Cheng等人报道的含C12-200的以前表现最好的肺靶向SORT LNP相比,作者的119-23 SORT配方在等量剂量下在肺部的mRNA转染效力提高了五倍(图4g)。为了进一步证实这一发现,作者进行了全面的剂量-反应分析,使用mLuc比较了三种不同LNP(119-23、MC3和SM102)在肺部的转染效率,其中这些LNPs均采用SORT配方并以不同剂量制备(图4h)。数据显示,通过肺靶向SORT LNP配方递送的mLuc在肺部的荧光素酶表达始终超过了通过SORT配方递送的SM102或MC3 LNPs在等量剂量下的水平。


除了生物分布,mRNA递送的治疗效力在很大程度上受到靶向细胞类型的影响。例如,在疫苗和免疫治疗的背景下,通过靶向mRNA递送到相关的免疫细胞通常可以实现最佳结果。尽管119-23和SM102 LNPs在肝脏内皮细胞和上皮细胞的转染率相当,但119-23在转染肝脏中性粒细胞、自然杀伤细胞和B细胞方面表现优越(图4i),在转染脾脏巨噬细胞和CD11b+自然杀伤细胞方面也表现突出(图4j)。即使没有特定的靶向配体,119-23 LNP在体内将mRNA递送到肝脏免疫细胞的能力与之前含金刚烷磷脂的LNP配方的研究结果一致。此外,在肺部,肺靶向SORT 119-23 LNP在转染免疫细胞方面表现优于SM102(图4k),这突显了其多功能应用的潜力。

编译 | 于洲

审稿 | 曾全晨

参考资料

Li B, Raji I O, Gordon A G R, et al. Accelerating ionizable lipid discovery for mRNA delivery using machine learning and combinatorial chemistry[J]. Nature Materials, 2024: 1-7.

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/171023
 
413 次点击