社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

哈工大 (深圳) 游恒志团队 | 高通量连续流技术+机器学习助力环四肽高效合成

RSC英国皇家化学会 • 1 周前 • 93 次点击  


01

研究背景

环四肽 (Cyclotetrapeptides, CTPs) 因其独特的结构和多样的生物活性,在药物研发中备受关注。然而,在化学合成领域,传统的头尾相连式 (Head-to-tail) 合成方法面临环张力大、产率低等问题,导致合成效率低下。以全 L 型氨基酸构成的环四肽为例,抗病毒分子 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 和抗癌分子 𝘤𝘺𝘤𝘭𝘰-(Pro-Val)₂ 的首尾相连式合成产率仅有 5%和 7%。并且,这类传统合成方式需要筛选大量反应参数以优化反应产率,严重制约了环四肽分子在医药领域的研究与发展。


02

研究内容

近日,哈尔滨工业大学 (深圳) 游恒志教授团队通过机器学习辅助的高通量连续流技术,对环四肽 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 合成的偶联条件组合进行系统性筛选,成功实现了环四肽在连续流条件下的高效合成。随后,利用机器学习技术对 𝘤𝘺𝘤𝘭𝘰-(Pro-Val)₂ 的合成条件进行预测,在降低了 90%筛选工作量的同时,还能将环四肽的合成产率提升 5-7 倍。这项研究为环四肽的快速条件筛选提供了创新解决方案 (图 1)。

图1 高通量连续流技术和机器学习辅助的环四肽合成条件筛选。


作者首先探索了不同流动条件下四肽环化反应的产率变化规律。最初在常温下进行反应,使用 DMF 作为溶剂,HATU 作为偶联试剂,DIPEA 作为碱。通过考察温度,停留时间和流速三个因素对产率的影响,最终确定最佳条件为:流速 1 mL/min,停留时间 0.7 min 和反应温度 100°C,此时产率达到 30.1% (表 1)。研究发现温度对反应效率具有显著影响,升温可有效促进反应进程。此外,流速参数呈现双重效应:当流速低于 1 mL/min 时,因反应时间延长和混合效率降低,导致副产物增加和产率下降;而当流速超过 1.0 mL/min 时,由于停留时间不足,反应物未充分转化,转化率和产率均下降。值得注意的是,在相同温度下,釜式反应产率仅为 7.8%,并且需要更长的反应时间。这一对比结果凸显了流动化学在提升反应效率和缩短反应时间方面的技术优势。


表1 连续流条件下的 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 合成。

根据筛选出的连续流最佳反应条件,作者进一步利用自搭建的高通量连续流反应平台开展系统研究。该装置可实现纳摩尔级超微量反应,并且具备在线 HPLC/LC-MS 联用检测系统,为环四肽合成条件的快速优化以及数据收集提供了高效的技术支撑。针对目标产物 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 的反应条件筛选,作者选择了包含 10 种偶联试剂、9 种碱和 3 种溶剂,共计获得 270 条反应数据并以此制作了热图 (图 2)。实验数据分析表明:采用 PyBOP 为偶联剂,NMI 为碱时,溶剂甲醇和 DMF 均能实现最优的环化效率,最高产率都可达到 36%。值得注意的是,虽然大多数反应收率低于 15%,但磷偶联试剂 (PyAOP 和 PyBOP) 表现出较好的效果。该高通量连续流反应平台提供了结构化的高质量反应数据,有利于后续应用于机器学习模型的训练。

图2 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 的高通量连续流条件优化。


作者基于前期构建的高通量反应数据集,进行了机器学习预测模型的研究。该研究采用 ECFP4 分子指纹作为分子描述符,通过 70/30 训练集-测试集分割法训练并对比了 6 种不同的机器学习模型性能。其中随机森林 (RF) 模型表现最好,决定系数 (R²) 为 0.87,均方根误差 (RMSE) 为 3.0 (图 3),其预测精度显著优于其他对比模型。因此将使用随机森林模型用于后续研究。

图3 六种机器学习模型的性能对比。


作者为进一步验证模型的有效性,采用了更严格的数据分割策略。即将 3 种使用了不同的偶联试剂或碱的反应数据作为样本外测试集,剩余数据作为训练集,共生成 6 个样本外预测任务 (表 2)。在这种划分策略下,随机森林模型在 6 个任务上都取得了显著的性能,展示了利用机器学习进行反应预测的潜力。


表2 随机森林模型在六种不同样本外预测任务中的表现。

最终,作者采用了迁移学习的方法,将训练模型应用于环四肽 𝘤𝘺𝘤𝘭𝘰-(Pro-Val)₂ 的环化条件筛选。尽管 𝘤𝘺𝘤𝘭𝘰-(Pro-Val)₂ 和 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 具有相似的烷基侧链,但它们的最佳反应条件并不相同。首先,我们随机选择了 27 个偶联条件进行高通量连续流实验 (占所有可能条件的 10%)。基于这些实验数据对模型进行微调后,将其应用于其他所有偶联条件的产率预测,最终实现了 3.6 的均方根误差 (RMSE)。表 3 对比了实验产率与预测产率,进一步验证了该微调模型预测结果的准确性。特别需要指出的是,改进后的模型成功地预测了最佳反应条件 (PyAOP、NMI 和 DMF),其预测结果与实验产率高度吻合。通过该微调模型的帮助,𝘤𝘺𝘤𝘭𝘰-(Pro-Val)₂ 合成条件的优化工作量被压缩至通常高通量实验的 10%,大大加速了优化过程并降低了筛选成本。


表3 机器学习辅助快速筛选 𝘤𝘺𝘤𝘭𝘰-(Pro-Val)₂ 合成。


03

总结展望

本研究将高通量连续流技术与机器学习模型相结合,显著提升了环四肽合成条件优化和筛选效率。借助高通量连续流平台的效率优势,单日内即可完成 200 组四肽环化反应,并成功将 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 的产率由 5%快速优化到 36%。此外,我们还将上述数据应用于机器学习模型的训练,测试结果表明该模型具备精准的条件预测能力。值得一提的是,通过仅使用传统方法 10%的实验数据进行重新优化,该模型即可成功预测 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 的最佳合成条件,并将产率从 7%提升至 34%。通过将高通量流动化学与机器学习技术融合使用,本研究在环四肽合成领域展现了独特优势。我们期待,这一成果将激发更多基于数据驱动的化学研究。 


04

论文信息


Synthesis of challenging cyclic tetrapeptides using machine learning-assisted high-throughput continuous flow technology

Chaoyi Li, Jiaping Yu, Wanchen Li, Jingyuan Liao, Junrong Huang, Jiaying Liu, Wei Zhao, Yinghe Zhang, Yuxiang Zhu and Hengzhi You

Org. Chem. Front., 2025,  Advance Article

https://doi.org/10.1039/D4QO02225D


*文中图片皆来源上述文章

点击“阅读原文”直达上述文章


05

作者简介

游恒志 教授

哈尔滨工业大学 (深圳)

游恒志,哈尔滨工业大学 (深圳) 教授,博士生导师。2017 年以 University College 最优等荣誉毕业于英国牛津大学化学系,获有机化学博士学位。2017 年以 Vertex Fellow 身份加入美国 Vertex 生物医药公司。2018 年加入哈工大 (深圳) 理学院,入选哈工大 2018 年“青年拔尖人才计划”,同年入选深圳市国家级领军人才计划;2019 年入选深圳市南山区 A 类领航人才;2019 年加入陈芬儿院士绿色制药工程研究院团队;主要研究方向:结合我国生物医药/制药行业的研发痛点和应用需求,探索研究更加绿色、高效、安全、智能化、自动化的应用型合成与生产技术。(1) 新型固载催化剂的设计、合成及其在微通道连续流技术中的应用研究 (2) 基于高通量连续流反应系统平台,应用人工智能算法,在化学合成中的路线设计、反应预测、和参数自优化研究 (3) 产业导向的药物中间体、功能分子等生产工艺研究。迄今为止,主持广东省及深圳市自然科学基金、技术攻关等项目 7 项。在 Nature, J. Am. Chem. Soc.,ACS Catal., Org. Chem. Front. 等期刊发表 SCI 论文 20 余篇,申请国家发明专利 40 余项。


朱宇翔 副研究员

哈尔滨工业大学 (深圳)

朱宇翔副研究员,硕士生导师,任职于哈尔滨工业大学 (深圳),医工学院。本硕博就读于牛津大学,师从 Timothy Donohoe 教授。毕业后于利物浦大学从事博士后研究 (合作导师:John Bower 教授)。回国后于中山大学·深圳任职副教授,自 2024 年起,加入哈工大深圳,目前研究方向主要为金属催化的有机反应方法学、含氮含氧杂环的合成、烯烃的官能团化以及研究。相关成果在国际一流期刊,包括 J. Am. Chem. Soc., Angew. Chem. Int. Ed., Chem. Sci., Org. Chem. Front. 等发表共计 9 余篇 SCI 论文。


黄均荣 博士

哈尔滨工业大学 (深圳)

黄均荣博士毕业于北京大学化学 (化学基因组学) 专业,从事天然产物全合成及分子荧光探针领域的研究。其后,他分别在中国科学院深圳先进技术研究院和深圳湾实验室坪山生物医药研发转化中心开展博士后研究工作,从事天然产物的改性及其作用机制等研究。2022 年,加入哈尔滨工业大学 (深圳),担任助理研究员,目前致力于非均相催化剂的开发与应用研究。2021 年入选深圳市高层次人才。主持中国博士后科学基金项目、国家自然科学基金青年项目,以及深圳市科技重大专项各一项,参与发表了 20 余篇 SCI 论文,并申请 10 余项国家发明专利。



推荐阅读


贵州大学伍星星课题组 | 稳定磺酸酯作为新型 C1 合成子构建螺环丙基氧化吲哚及抗菌活性研究

华东理工大学韩建伟/王利民 | 二芳基碘盐经重排级联反应实现苯炔的 1,2,2'-三官能团化

Image

微信改版,公众号文章不再以时间轴排列啦!

将Frontiers Journals设为星标⭐ 不错过更多精彩内容!


喜欢今天的内容?

👇    就来分享点赞在看三连吧    👇


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/181408
 
93 次点击