Python社区  »  机器学习算法

Drug Discov. Today | 基于机器学习的药物动力学预测模型

DrugAI • 1 周前 • 95 次点击  

编译 | 周珍冉

审稿 | 杨慧丹

今天给大家带来发表在期刊 Drug Discovery Today的一篇综述,“A decade of machine learning-based predictive models for human pharmacokinetics: advances and challenges”,作者来自韩国GNU自然科学研究所和印度理工学院生物技术系。在文章中,作者概述了基于机器学习(ML),用于评估或预测药代动力学(PK,Pharmacokinetic)值的定量构效关系(QSAR)模型,以及可获取这类数据的数据库。

1

背景介绍

药物开发过程的关键在于发现和优化具有理想药代动力学(PK)和药效动力学(PD,Pharmacodynamic)特性的治疗药物。尽管PK相关问题在过去几十年里有所改善,但由于吸收、分布、代谢、排泄和毒性(ADMET)较差,药物开发中放弃了近半数的治疗候选药物。因此,对人体内PK特性的估计是药物开发过程中进行非临床研究的主要目的之一。


传统方法复杂又昂贵,而预测PK参数的计算方法因为具有成本效益和高通量,成为了实验的替代方法。过去几十年里,PK/PD建模从剂量反应关系的基本概念到基于扩展机制的方法都有许多进展。但是,这种方法需要先验知识和高质量的数据来进行可靠的预测,而ML引导的预测是基于多元实验数据进行训练的。基于in silico的方法被广泛用于ADMET或PK属性建模(图1,图2)。验证和解释这些预测人体内PK的方法有助于体外和体内实验的设计,还可以减少对动物数据的直接使用。


图1. PK参数预测的建模过程


图2.PK参数并行建模的体系结构


最新的化学大数据进展为寻找更优化、更精确的预测模型开启了新的篇章。然而,不管他们的潜力如何,仔细检查、比较它们的表现,区分它们取得的进展是很重要的,这对理解数据及其ML方法也是必要的。因此,在这篇综述中,作者重点研究了基于ML的PK参数预测模型,探讨了人类PK预测的最新进展,以解决评估、解释和实施人工分子设计方面的挑战。


2

PK参数及其预测模型

本文介绍了基于ML的PK参数预测模型,如表1,列举出不同PK参数预测模型的数据集规模、描述符、使用方法以及实验表现(为方便介绍,下文以模型对应参考文献序号作为代称)。接着作者以PK参数种类为划分,对目前进展进行了探讨。


VDss

稳态分布容积(Volume of distribution steady-state,VDss):测量药物对组织和血浆的相对亲和力。被认为是体内药物分布的可靠指标。VDss的早期评估对于制定用药决策和剂量测量计划具有重要意义。


文章介绍了如22、23、24采用各种化学描述符的VDss预测模型,这些研究模型适用于上市药物,但并不清楚对其他类型分子的适用程度。而PBPK建模(基于机制的方法)为理解潜在的分布过程提供了机会,并且在预测PK的高精度方面优于经验方法。使用这种基于组织组成的方式来预测VDss的优势在于,它提供了一个清晰解释药物分布位置的模型。如模型32,可以单独利用分子描述符或同时使用分子描述符和组织:等离子体分配系数(Kt:p),建立了基于决策树的回归模型。


以上两项研究都需要计算和专业知识,而且作为传统ML算法模型,还依赖特征工程,费时且具有挑战性,这也导致性能较差。而深度学习(DL)可以自动从原始数据中提取关键特征或分子描述符,不需要特征工程。如34,采用了集成的迁移学习和多任务学习方法,模型通用性和准确性更高。


Fup

未结合蛋白分数(Fraction of unbound protein,Fup):反映了能够与药理靶标相互作用并能够在血浆和组织之间扩散的药物浓度。蛋白质结合的微小差异会对 F up产生很大影响,药物功效也会发生显著变化。因此,在药物开发过程中需要有一个最佳的 Fup值。未结合的药物浓度是确定安全边际和有效剂量的重要因素。


模型40特别关注了Fup的低值范围,Fup的强烈偏差分布通过回归模型中的对数变换得到缓解,从而提高了较低值的准确性。41使用了四种不同的AutoML框架开发Fup预测模型,性能都比较优秀。但是这些模型都只使用了有限的描述符集。42的作者定义了区分低、高和非常高血浆蛋白结合物的标准和经验规则。对药物特征和Fup值之间的关系取得了很好的研究成果,但该研究在药物分子和描述符的大小方面受到限制,这导致可能实验结果不足以得出任何确定的结论。


CL

清除率(Clearance,CL):解释PK和预测血药浓度随时间变化的有力工具。药物CL在确定给药方案中具有重要作用。一个药物的全身总CL是各个器官的所有CL的总和,可以定义为每分钟从血液中清除所有药物的体积(ml/min)。


模型46使用人工神经网络(ANN)对人肝细胞固有CL进行建模。47采用SVR和MLR对CL进行了QSAR模型的建立和评价。但47仅专注于一小部分药物,这使其适用性比较受限。模型24利用1268种药物开发了各种模型,使用了四种统计建模的方法——SVM,FR,GBM和XGBoost。这些模型通常与适用性领域相关联,适用性领域是根据训练集中复合类的包含或排除规则定义的。


t1/2

药物的半衰期(The half-life of a drug,t1/2):定义为血浆中测定的药物浓度减少到起始浓度刚好一半所需的时间。理解t1/2的概念有助于确定任何特定药物的排泄率和稳态浓度。在涉及药物毒性的情况下,t1/2往往就有了临床意义,这是由于用药频率会大于或小于药物的t1/2。


模型50使用了几种ML方法建立预测t1/2的高质量模型,7个模型中GBM的性能最好,实验结果表明高亲脂性化学品更容易出现长的t1/2。模型24强调了描述符的重要性,如自相关、物理性质或亲脂性。


3

PK数据库和软件

作者调查了PK参数可用的资源,并简要描述了最近的进展。如表二,介绍了几种PK公开可用的数据库和预测网络资源。


4

挑战和未来方向

目前大多数模型仍缺乏足够的可解释性,对新药的预测结果也不尽人意。Dearden等人讨论了基于QSAR的方法中常见的21种错误类型,每一种都分配了相关的OECD原则。避免这些错误可以改善和增强模型的可预测性。


除此之外,医学上QSAR方法也存在缺乏高质量的实验数据的问题。任何由错误描述符表示的错误结构都会直接影响模型的性能。Fourches等人讨论了无法通过传统化学信息学方法适当处理的数据库中的化学记录的清理或优化。


在PK数据方面,重要的是获取一系列具有高度相关特性的结构的临床数据。这一领域的实验既昂贵又耗时,大多数研究只关注于有限的可用数据集。而PK参数确实相互关联,并假定受到相似的理化性质和其他药物性质的影响。因此,并行建模机制可以利用这一效应来提高模型的精度(图2)。所以,如果想在这一领域进行进一步的研究和开发,模型的可移植性和复杂性是无法避免的附加问题。


总之,由于本文所描述的一个或多个问题的局限性,任何QSAR模型在某种程度上都可能是错误的。然而,AI的进步可以缓解一些问题,开发出更好的预测模型。尽管这些模型有其局限性,但当与专家系统结合时,它们可能还是有用的。


5

总结

鉴于基于 QSAR 的 PK 预测模型与不同的预测方法和描述符集相关,因此任何单一模型都不可能对所有感兴趣的药物进行可靠的预测。文章中,作者比较了这些模型的预测能力并探索模型的改进,除此之外,还讨论了PK评估或可靠预测方面的挑战和进展。


参考资料

Kumar V, Faheem M, Lee K W. A decade of machine learning-based predictive models for human pharmacokinetics: advances and challenges[J]. Drug Discovery Today, 2021.

https://doi.org/10.1016/j.drudis.2021.09.013.

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/121294
 
95 次点击  
分享到微博