社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
Digital Economy and Data Protection Newsletter(25....
2025必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...
【2025版附安装包】超详细Python+Pycharm安装保姆级教程,永久免费使用,Python环...
倒计时5天|2025第十三届TopDigital创新营销盛典下午场B2B演讲精彩预告
MoE 所有层融到一个分布式算子GPU Kernel!FlashDMoE:GPU内核-硬件协同解锁大...
短视频产业市场:AI剪辑师攻占短视频工厂,AIGC如何重构50%创作成本?
ChatGPT 4.5 国内直接用!
【Python】常用的6个Python金融数据接口库,强烈推荐~
如何使用 Python 获取同花顺问财数据?全网最简单方法!
经济学研究中的机器学习与因果推断前沿
关注
Py学习
»
机器学习算法
Nat. Mater. | 利用机器学习和组合化学加速发现mRNA递送的可电离脂质
吕华课题组
• 1 年前 • 181 次点击
大家好,今天为大家分享一篇最近发表在
N
ature
M
aterials
上的文章,题目为
Accelerating ionizable lipid discovery for
mRNA delivery using machine learning and
combinatorial chemistry
。
这篇文章的通讯作者是来自美国麻省理工学院的
Daniel G. Anderson
教授和现为加拿大多伦多大学的
Bowen Li
助理教授,
Bowen Li
也是该文的第一作者。
mRNA
疫苗和疗法的开发在现代医药中具有革命性的意义,特别是在快速应对传染病
(
如
COVID-19)
方面显示出巨大潜力。然而,
mRNA
分子本身稳定性较差,需要通过适当的递送系统保护以达到治疗效果。脂质纳米
颗粒
(
LNPs)
是目前最有效的
mRNA
递送系统之一,
其配方由可电离脂质、胆固醇、辅助脂质和
PEG
化脂质
组成,其中
可电离脂质在
mRNA
的装载与内体逃逸中起着关键作用,其化学性质的微小改变可以极大地影响生物功能。
但现有的可电离脂质选择和设计缺乏高效的系统方法,这限制了其应用范围和效率。
作者所在团队一直在探索可电离脂质的高通量合成
(
HTS)
策略,
例如在之前工作中他们报道了利用一锅三组分反应来高通量构筑可电离脂质库
(
Li, B. et al.
Nat.
Biomed. Eng
.
2023
, DOI: 10.1038/s41551-023-01082-6
)
,该方法可以在三维组合化学空间中广泛地筛选可电离脂质的性质
。
在本文中,作者更进一步,发展了一个基于
Ugi
四组分反应
的
HTS
平台,该平台能够更有效地设计和
合成
可电离脂质
(
图
1)
。
在此,可电离脂质结构被划分为四个
组分:
A
mine head group, linker, tail 1
和
tail 2
,分别对应于
四组分
中的反应物
-
胺、异氰酸、醛和羧酸。这种
四组分方法可以促进更广泛的可电离脂质候选物的构建
。
图
1.
四组分反应用于高通量合成可电离脂质库
尽管
Ugi
四组分反应在脂质合成方面十分高效,但筛选这些脂质的
mRNA
递送效率仍然是一项劳动密集型和耗时的任务。因此作者
整合了机器学习
(ML)
方法,以加快
LNP
筛选过程
(
图
2a)
。作者首先构筑了一个
3×4×8×4
共
384
个可电离脂质的文库
(
图
2b)
,其中每个单元的结构是根据一定的经验与理性设计而来的。作者在细胞层面上评估了这些可电离脂质在
HeLa
细胞中的
RNA
递送效率
(
通过固定的
LNP
配方搭载荧光素酶
mRNA
, mLuc)
,使用发光强度
(RLU)
来量化荧光素酶的表达
(
图
2c)
,以用于后续机器学习训练。
为了提高转染数据的质量和可电离脂质结构的多样性,作者还设计一个额外的文库。该文库简单说就是通过体内筛选选择了表现最好的八种
tail 1
、
tail 2
和
linker
的组合,再加入
25
种不同的胺
header
构建得到的
(
图
2j)
。具体而言,作者是在小鼠体内肌肉注射
mLuc LNPs
,通过观测注射部位的荧光强度来评估效果。由于工作量浩大,作者是用批次筛选的方法依次评估了
tail 1(
图
2d
、
e)
,
tail 2 (
图
2f
、
g)
和
linker (
图
2h
、
i)
中表现最优的候选者。作者测试了这
200
种可电离脂质的
mLuc
转染效率
(
图
2k)
,一共
584
个数据点用于后续机器学习。
图
2
.
可电离脂质库的高通量筛选
作者使用
584
种脂质的结构数据,加上相应的
mRNA
转染结果,用
于训练机器学习模型
(
图
3a)
。
首先将
584
个脂质的体外
mLuc
转染结果转化为二元结果
(
阳性
/
阴性
)
,由于
二元训练数据集中的阳性率相对较低,作者使用了合成少数过采样技术
(SMOTE)
来平衡数据集分布。对于结构信息,作者使用开源软件
PaDEL-Descriptor
对每个成分
(Amine head group, linker, tail 1
和
tail 2)
分别
计算了
807
个分子描述符,总共每个脂质计算了
3228
个描述符。
通过清洗一些重复性和低方差描述符,最后每个可电离脂质含有
2014
个描述符。
作者利用这个二元数据集分别训练了三种机器学习分类模型:随机森林、逻辑回归和
XGBoost (
图
3b-d)
。其中
XGBoost
表现最优,分类器
ROC
曲线下面积
0.983
,精确召回曲线下面积
0.987
。因此作者最后选择
XGBoost
作为预测模型。
并且
对于
head group, linker, tail 1
和
tail 2
,作者也都分别确定了最有效的化学描述符
(
图
3e-h)
。
图
3
.
使用脂质筛选数据进行机器学习模型训练
接着,作者将训练好的模型应用于一个包含
40000
个脂质的新文库的计算机筛选
,每组成分如图
4a
所示。由于算法有一定的随机性,作者用不同的随机种子运行了
1000
次
预测,每次预测记录
Top 50
脂质,最后从所有汇总的这些脂质中,分析脂质中每个部分出现的频率
(
图
4b)
。作者选取每个部分出现频率最高的两种化合物,合成了
2
×2×2×
2
一共
16
个脂质用于后续验证
(
图
4c)
。在这
16
种脂质中,有三种
(119-23
、
169-23
和
569-6)
在表现出了与商业试剂相当的转染能力。
值得注意的是,
119-23
与通常的可电离脂质结构设计不同,它含有一个庞大的金刚烷基。通过优化
LNP
配方后,
负载
mLuc
的
119-23 LNP
呈现球形、片层状形态,尺寸均匀,约为
100 nm
;并且相对于商业转染试剂
SM102
和
MC3 LNP
,转染效果明显增强
(
图
4e, f)
。
在静脉注射后,与
MC3 LNP
相比,
119-23 LNP
在肝脏中的转染效力高
10
倍,在脾脏中的转染效力高
20
倍。
作者还使用由
Siegwart
等人开发的
SORT
技术来实现
LNP
器官靶向递送,相比于之前具有最佳肺靶向能力的
C12-200 SORT LNP
,
相同剂量下
119-23 SORT LNP
在肺部的
mRNA
转染效率提高了五倍之多
(
图
4g)
。
图
4
.
机器学习辅助脂质湿实验筛选验证
总的来说,本文将机器学习与高通量四组分合成反应结合,实现可电离脂质的加速筛选。作者利用该平台发现一种结构独特并且性能优异的脂质
119-23
,
其在转染肌肉和免疫细胞方面的表现超过了目前商业的试剂。这种机器学习辅助的脂质发现平台有望加速
促进
RNA
治疗递送系统的未来发展。
作者
:
ZHS
审校
:
ZXY
DOI
: 10.1038/s41563-024-01867-3
Link:
https://doi.org/10.1038/s41563-024-01867-3
上一篇
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/170950
181 次点击
登录后回复