
1.引言
在药物发现领域,寻找能够与特定靶点蛋白相互作用的新药物一直是一项充满挑战的任务。这一过程不仅需要大量的实验验证,而且成本高昂、耗时漫长。随着计算科学的发展,许多数据驱动的计算模型被引入到这一领域,旨在降低成本和时间消耗。这些模型主要分为预测模型和生成模型两大类,前者用于预测药物与靶点之间的相互作用(DTI),而后者则专注于新药物的生成。
药物-靶点相互作用对于理解药物的治疗效果至关重要,它在新疾病的治疗发现中扮演着关键角色。近年来,药物-靶点结合亲和力(DTA)预测受到了越来越多的关注,因为它能提供药物与靶点之间相互作用强度的详细信息。然而,现有的基于回归的模型和深度学习模型在提取药物和靶点的相关特征方面存在局限性。
为了克服这些挑战,这篇文章提出了一种多任务学习(MTL)框架——DeepDTAGen。该框架通过共享特征空间同时执行DTA预测和新药生成任务,不仅提高了效率,还增强了模型对药物-靶点关系的理解,并且开发了Fetter Gradients(FetterGard)算法,有效缓解了多任务学习中的梯度冲突问题,确保了模型的稳定性和准确性。
通过广泛的实验验证,DeepDTAGen在预测药物与靶点之间的结合亲和力以及生成靶点感知药物方面均表现出色。无论是在药物选择性分析、定量构效关系分析,还是在冷启动测试中,DeepDTAGen都展现了其稳健性。此外,对于生成任务,也进行了化学药物性分析、靶点感知性分析和多药理学分析,进一步证明了模型的实用性和灵活性。
2.方法
2.1 数据集
这篇文章采用了三个广泛认可的数据集——KIBA、Davis和BindingDB,用以评估DeepDTAGen模型的性能。这些数据集中,药物的SMILES字符串均通过PubChem数据库中的PubChem CIDs提取,而目标蛋白序列则是基于它们的基因名称从UniProt数据库中获取。三个数据集的详细信息如下表1所示。
表1 Davis,KIBA和BindingDB数据集
按照GraphDTA方法将所有数据集划分为训练集和测试集,每个数据集包含六个折叠,其中一个折叠作为测试集,其余五个作为训练集。
2.2 特征表示
2.2.1 蛋白质表示
首先,每个蛋白质序列被编码为一系列ASCII字符,这些字符精准地代表了构成蛋白质的氨基酸。通过标签编码方法,依据ASCII字符的字母符号,为每个氨基酸分配了独特的数值。例如,序列“[MAVILE]”经过标签编码后,变成了“[13. 1. 1. 22. 9. 12. 5]”,每个氨基酸之间用点分隔,确保清晰可辨,避免了解释编码序列时可能出现的混淆或错误。
为了使所有序列的长度统一,运用填充和修剪的策略。设定标准长度为 1000 个字符,若序列长度不足,则用零填充;若超出,则修剪多余部分。进一步地,借助词嵌入技术,将这些数值序列转化为 128×1000 维的矩阵,作为模型的输入。这一矩阵不仅保留了序列的关键信息,还为模型的高效学习和准确预测奠定了坚实基础。
2.2.2 药物表示
首先,两种药物表示方法分为两种,SMILES和图表示。图表示作为GraphEncoder模块的输入,MTS字符串作为Transformer-Decoder模块的目标对象。为了确保数据的质量和模型的高效性,这篇文章只考虑长度等于或小于138的SMILES字符串用于训练,超过这一长度的SMILES及其相应的相互作用将被丢弃。
在图表示方面,利用标准化学RDKit库,将SMILES字符串从规范形式转换为同分异构形式,类似于GraphDTA的方法。进一步地,将这些异构药物字符串转换为图结构,其中节点和边分别代表原子和化学键。为了在图表示中全面捕捉药物的综合信息,使用RDKit库提取了节点(原子)的全面特征集,包括环成员、杂化、形式电荷、隐含氢原子数、相邻氢原子、相邻原子、芳香结构和原子符号等。这些特征不仅丰富了图表示的细节,还为药物-靶点相互作用(DTI)的预测提供了重要依据。
此外,根据QED分数对SMILES字符串进行了修改。QED分数较低的SMILES被注入了一组对DTI至关重要的空间化学特征。在这一过程中,要严格确保所有SMILES字符串有效,没有断开的原子,且其化学支架保持完整。
2.3 模型框架

图1 模型框架。A.总体架构。B.编码器解码器的架构。C.编码器和解码器模块以及目标条件的融入。
本文模型架构由四个核心模块组成:Gated-CNN模块、Graph-Encoder模块、Fully-Connected模块和Transformer-Decoder模块。Gated-CNN模块用于从蛋白质序列中提取特征;Graph-Encoder模块负责处理药物的图表示,捕捉其结构特征;Fully-Connected模块用于亲和力预测;Transformer-Decoder模块用于生成药物分子。
药物图表示是将SMILES字符串转换为包含全面节点特征的图结构。随后,药物图被Graph-Encoder模块处理,这些特征被分为两组:先于均值和对数方差操作(PMVO)特征和后于均值和对数方差操作(AMVO)特征。PMVO特征与蛋白质特征拼接后传递给 Fully-Connected 模块,用于亲和力预测;而AMVO 特征则与亲和力值和蛋白质向量一起,作 Transformer-Decoder模块的输入,用于生成药物分子。在这个过程中蛋白质序列被输入到Gated-CNN模块。
此外,Transformer-Decoder模块接收经过位置编码和嵌入操作后的MTS嵌入作为输入,其中Query(Q)来自MTS嵌入,而Key(K)和Value(V)来自AMVO特征、亲和力值和Gated-CNN模块的输出。交叉注意力机制确保解码器能够有效地关注药物和蛋白质数据的共享特征,从而实现特定于靶点的药物分子的生成。
在模型的训练过程中,损失函数的设计至关重要。Fully-Connected模块的损失函数基于实际亲和力值和预测亲和力值之间的误差定义,而 Transformer-Decoder模块的损失则基于原始MTS和重建的SMILES之间的误差计算。这种双重损失函数的设计确保了模型在亲和力预测和药物生成任务上的平衡优化。
2.3.1 Gated-CNN模块
Gated-CNN用于预测蛋白质-配体结合亲和力提供强有力的支持。这一模块在每个卷积层后添加了一个门控机制,使得模型能够选择性地更新和遗忘信息,能够高效地学习序列中的长期依赖关系,从而在复杂的生物分子交互中捕捉到关键信息。
Gated-CNN模块接收词嵌入矩阵作为输入,并将其传递到门控卷积层。与传统的1D CNN不同,Gated-CNN在处理过程中将矩阵分为两部分:卷积值(CV-Unit)和门控值(GV-Unit)。CV-Unit负责执行卷积操作,捕捉序列中的局部特征;而GV-Unit则作为门控,通过Sigmoid激活函数将GV-Unit的值从0转换到1,从而控制CV-Unit的输出。这种设计使得模型能够选择性地更新和遗忘信息,GV-Unit的值接近1表示信息相关或重要,而接近0则表示信息不相关或不重要。最终的输出是CV-Unit和Sigmoid GV-Unit的逐元素乘积,这一过程不仅保留了关键特征,还有效过滤了无关信息。可以用以下公式表示:
其中,是CV-Unit和GV-Units的输入部分,是权重矩阵,是偏置项,是sigmoid激活函数。最终输出为CV-Unit与的逐元素乘积,定义如下:
2.3.2 Graph-Encoder和Transformer-Decoder模块
Graph-Encoder和Transformer-Decoder模块是实现药物生成和亲和力预测的核心。Graph-Encoder模块负责处理药物的图表示,它接收药物的节点特征向量和邻接矩阵作为输入,通过多个图卷积网络(GCN)层将其转换为低维的潜在向量。这一过程可以表示为:
其中,
是度矩阵,包含每个节点连接的边数信息,是权重矩阵,ReLU是激活函数。
特征向量 在亲和力预测和药物生成任务中都发挥着重要作用。在亲和力预测中,直接使用特征向量;而在药物生成中,该特征向量会经过多个转换阶段。进一步地,图表示被转换为药物的序列,以确保其与Transformer解码器的兼容性。按照PGMG的段编码方式,向序列中添加段编码,如,其中
是段编码序列,即。在随后的变分层中,应用均值和对数方差操作,将输入分布到0到1的多变量高斯分布范围内。通过从分布中采样得到潜在向量表示,如下式所示:
其中,是由均值为0、方差为1的正态分布产生的随机噪声向量。它被用作重参数化技巧,涉及将元素乘积添加到协方差矩阵中。重参数化技巧使得梯度可以通过随机抽样进行反向传播。最后,将条件与潜在向量结合,形成条件潜在向量。Graph-Encoder模块返回两个输出:和,分别传递给Transformer-Decoder模块和Fully-Connected模块。
Transformer-Decoder模块接收潜在向量和经过分词、嵌入和位置编码后的MTS作为输入。得到的结果向量被投影成查询(Q)、键(K)和值(V)向量,维度为。这些投影向量被传递到Transformer解码器的掩码多头注意力(MMHA)子层。该子层利用注意力机制,在预测下一个token时,优先考虑输入序列到当前位置的不同部分,如下式所示:
其中,
是嵌入维度的平方根,是向量的转置。由于这个操作是以多头方式进行的,投影向量被分成多个头。因此,所有头的输出随后被串联起来并通过归一化层。在随后的子层中,执行交叉多头注意力,这使得解码器能够专注于目标特定药物的生成。在这个阶段,从前面的MHA子层中获得
,经过归一化后,以及从潜在向量中得到和 ,注意力操作如下所示:
最终的输出被传递到残差连接、归一化层和前馈网络,通过这些网络,解码器自回归地生成目标 SMILES,如下式所示:
其中,是属于药物SMILES的第个生成的标记。
2.3.3 Fully-Connected模块
Fully-Connected模块用于构建预测回归模型,以预测药物和目标之间的亲和力。为了实现这一功能,首先将Graph-Encoder模块提取的PMVO特征与Gated-CNN模块的特征进行拼接,形成一个综合的特征向量。接下来,将这些特征传递到全连接层,通过训练模型来预测亲和力值。
2.4 损失函数
本文模型损失函数由三个主要部分组成:均方误差(MSE)、Kullback-Leibler散度(KL)和语言建模(LM)损失。MSE用于亲和力预测任务,计算实际亲和力值和预测亲和力值之间的均方差,确保预测的准确性。KL和LM损失则用于生成任务,KL损失通过测量近似后验分布和先验分布之间的散度,将潜在空间的分布与标准正态分布对齐,而LM损失确保正确生成SMILES序列,通过交叉熵损失比较每个时间步的预测SMILES标记与目标SMILES。综合损失函数将KL和LM损失整合,而MSE损失保持独立。损失函数如下:
其中是预测的亲和力,是实际的亲和力,是总样本数;是由编码器学习到的分布,也称为近似后验分布,而是先验分布;是SMILES中的总标记数,是在时间步的真实标记,是在先前生成的标记的影响下,标记的预测概率,而是编码器的潜在变量。
此外,本文采用FetterGrad模型来解决梯度冲突问题。在每一步,FetterGrad检查MSE和生成损失之间的梯度冲突,如果检测到冲突,它会解决冲突并计算去冲突梯度的平均值,然后传递给Adam优化器。如果没有冲突,则直接计算两个梯度的平均值并传递给优化器。这种策略确保了模型训练的稳定性和效率,为多任务学习提供了强有力的支持。
2.5 FetterGard算法
在多任务学习(MTL)中,如何有效提取共同特征并解决不同任务间梯度冲突的问题,是提升模型性能和稳定性的关键。DeepDTAGen模型通过Fetter Gradients算法(FetterGrad)优化了这一过程。
FetterGrad首先通过计算欧几里得距离(ED)来识别两个任务的梯度是否冲突,并将ED转换为0到1范围内的欧几里得相似性得分(ESS),假设当ESS小于0.5时梯度冲突。进一步,计算两个梯度之间的MSS(范围在0到1之间)以识别主导梯度,通过迭代地将主冲突任务梯度投影到另一个任务梯度的法平面上,有效解决了梯度冲突问题。
在损失函数和梯度更新方面,DeepDTAGen模型设计了两个损失函数,分别对应亲和力预测和生成任务,并将双任务学习目标描述为一个综合的优化问题。FetterGrad遵循特定的更新规则来解决梯度冲突,将梯度去冲突作为目标函数,通过输入模型参数和任务小批量,计算所有任务的梯度,检查梯度冲突并更新梯度,最终输出更新后的模型参数。算法如下所示:
算法1 FetterGrad更新规则
3.结果
3.1 DeepDTAGen模型性能评估
在KIBA、Davis和BindingDB数据集上进行了评估,并与现有最先进方法进行了比较。在亲和力预测任务中,采用了多种评估指标,包括均方误差(MSE)、一致性指数(CI)、R平方()和精确率-召回率曲线下面积(AUPR),以衡量预测值与实际值之间的差异、预测排序与实际排序的一致性、模型解释的变异性比例,以及模型在不同阈值下的精确率和召回率的平衡。
在生成性能评估方面,评估了生成分子的有效性、新颖性、独特性以及它们与目标的结合能力。有效性衡量了所有生成分子中化学有效分子的比例,新颖性计算了训练集和测试集的目标SMILES(Modified Target SMILES,MTS)中不存在的有效分子的比例,而独特性提供了生成的化学有效分子中独特分子的比例。此外,还对生成的药物进行了化学分析,包括溶解度、药物相似性和可合成性等化学属性,以及原子类型、键类型和环类型的结构分析。
本文采用了两种不同的SMILES生成策略:基于SMILES的方法和随机方法。基于SMILES的方法通过将条件和原始SMILES输入到Transformer解码器来生成SMILES,而随机方法则产生随机元素而不是原始SMILES,其余输入条件保持不变。第一种方法允许研究人员考虑更广泛的潜在药物候选者,而第二种方法提供了为特定目标蛋白生成SMILES的解决方案。
3.2 预测性能
表2 DeepDTAGen在KIBA、Davis和BindingDB数据集上的性能对比

如表2所示,在药物-靶点亲和力(DTA)预测领域,DeepDTAGen模型在KIBA、Davis和BindingDB三个基准数据集上展现了卓越的性能。与传统机器学习模型和深度学习模型相比,DeepDTAGen在MSE、CI、等关键评估指标上均取得了显著优势。
DeepDTAGen的成功归功于其创新的药物分子表示方法。与依赖于分子字符串表示的传统模型不同,DeepDTAGen采用图表示法,并引入了额外的以DTI为中心的节点特征,使得药物分子的表示更加全面和丰富。此外,模型利用门控卷积神经网络(Gated-CNN)从蛋白质序列中提取特征,有效学习关键部分同时丢弃不相关信息,显著提高了预测结果的准确性。
3.3 药物选择测试
本文对DeepDTAGen模型在KIBA、Davis和BindingDB数据集上进行了药物选择测试,以验证其在预测药物-靶点亲和力方面的性能。测试结果表明,DeepDTAGen能够准确预测药物与靶蛋白的相应亲和力水平,无论是在亲和力值变异程度高的情况下,还是在药物与靶点结合亲和力大致相同的情况下。
在KIBA数据集中,选择了与目标蛋白亲和力值变异程度高的药物,发现DeepDTAGen能够准确预测其与不同靶蛋白的亲和力(表3)。在Davis数据集中,DeepDTAGen同样成功预测了特定药物与不同靶点的亲和力水平(表4)。而在BindingDB数据集中,DeepDTAGen通过预测与特定蛋白的亲和力保持不变(表5),维持了药物选择性。
表3 以实际亲和力和预测亲和力值在KIBA数据集中选出方差高的药物

表4 以实际亲和力和预测亲和力值在Davis数据集中选出方差高的药物

表5 以实际亲和力和预测亲和力值筛选BindingDB数据集中方差较大的药物

此外,本文还根据药物与靶点的结合亲和力大致相同这一标准,对DeepDTAGen进行了评估。在KIBA(表6)、Davis(表7)和BindingDB数据集(表8)中,DeepDTAGen均成功预测了与多个靶蛋白具有相似亲和力的药物,证明了其在药物选择性测试中的有效性。
表6 选择与KIBA数据集中大多数靶蛋白具有实际亲和力和预测亲和力值相同亲和力值的药物

表7 选择与Davis数据集中大多数靶蛋白具有实际亲和力和预测亲和力值相同的药物

表8 选择与BindingDB数据集中大多数靶蛋白具有实际亲和力和预测亲和力值相同的药物

3.4 模型有效性评估
为了验证DeepDTAGen模型的有效性,本文采用了四种随机化测试方法,包括y-随机化、药物随机化、蛋白质随机化和蛋白质描述符随机化,以评估模型预测结果是否反映了药物和靶点之间的真实生物学相关性,而非偶然获得。这些测试在KIBA、Davis和BindingDB数据集上进行,通过在置换后的数据集上训练模型,并使用标准评估指标进行评估。
表9 不同随机化检验在KIBA、Davis和BindingDB数据集上的比较结果

如表9所示,当亲和力值被随机打乱时,模型性能显著下降,所有数据集的CI降至约0.5,MSE显著增加,和AUPR接近0,表明模型性能接近随机水平。在药物随机化测试中,模型性能同样显著下降,MSE增加,CI、和AUPR降低。蛋白质随机化和蛋白质描述符随机化测试也导致模型性能下降,尤其是在BindingDB数据集上,AUPR显著降低。这些随机化测试的结果表明,DeepDTAGen模型不依赖于虚假相关性或偶然性,而是有效地学习了药物-靶点关系。
3.5 冷启动场景下模型性能评估
为了评估DeepDTAGen模型在冷启动场景下的表现,本文采用了药物分割(独特药物)和蛋白质分割(独特靶点蛋白)两种方法,对KIBA、Davis和BindingDB数据集进行测试。
表10 使用药物分割和蛋白质分割方法对每个数据集预测的亲和力与实际亲和力的比较

如表10所示,在药物分割方法中,尽管在KIBA数据集上Affinity2Vec模型表现略优,但在Davis和BindingDB数据集上,DeepDTAGen在MSE和方面表现最佳。而在蛋白质分割方法中,DeepDTAGen在所有数据集上均显示出更低的MSE和更高的及AUPR,尤其是在Davis数据集上,其性能超越了DeepDTA模型。这些结果表明,DeepDTAGen模型在处理未见数据时具有更强的鲁棒性,能够有效地学习和预测药物与靶点之间的亲和力,即使在数据稀缺的情况下也能保持高性能。
3.6 消融研究
消融测试包括使用药物的后均值和对数方差操作特征、采用有限原子特征的药物图、替换Gated-CNN模块中的层、以及在编码器和Gated-CNN模块中替换图卷积层和Gated-CNN层为1D CNN层。
表11 使用KIBA、Davis和BindingDB数据集进行不同消融测试

如表11所示,当仅使用AMVO特征时,模型表现较差,这表明该特征表示不足以捕捉药物的复杂结构信息。而在编码器和Gated-CNN模块中将图卷积层替换为1D CNN层的实验5结果也不理想,这限制了模型学习输入的结构特征的能力。尽管在Gated-CNN模块中引入图卷积层的实验4性能略优于实验5,但仍然不如使用图表示和额外节点特征的实验3。实验2在所有消融测试中取得了最佳结果。这表明,结合图表示药物、在蛋白质侧使用Gated-CNN以及考虑药物的额外特征,显著提高了预测性能。
3.7 生成药物的有效性、新颖性和独特性
表12 在KIBA和BindingDB数据集上比较各种生成方法的有效性、新颖性和唯一性

为了比较DeepDTAGen模型与先前模型在这些方面的性能,本文在KIBA和BindingDB数据集上进行了重新训练和评估。如表12所示,在KIBA数据集上,DeepDTAGen的有效性比PGMG模型高,但在新颖性和独特性上相对较低。而在BindingDB数据集上,DeepDTAGen在有效性和新颖性比PGMG高,尽管独特性显著下降。这种较低的独特性比率可能归因于训练数据的多重药理学性质,即一种药物可能与多个靶蛋白相互作用,而一种蛋白可能与许多药物相互作用,导致模型倾向于生成跨多个相互作用的相同药物。相比之下,PGMG模型通过使用随机化的SMILES作为目标SMILES,提高了独特性比率,但这种方法可能会影响药物和靶点之间生物学相关性的学习。
3.8 基于相互作用的药物生成

图2 原始药物与靶点的实际亲和力、原始药物与靶点的预测亲和力、生成药物与靶点的预测亲和力得分分布比较。
基于相互作用的药物生成涉及到使用药物及其靶蛋白作为输入条件来生成新的药物。为了验证生成药物的有效性,采用了AutoDock VINA工具来预测生成药物与靶蛋白的结合亲和力。亲和力值以每摩尔千卡(kcal/mol)计算,数值越低表示结合力越强。如图2所示,无论是在KIBA还是BindingDB数据集上,生成药物与靶点的亲和力分布都令人满意,只有极少数相互作用显示出弱结合力。


图3 基于相互作用的药物生成

图4 从图3中生成的药物和种子药物与其相应的靶蛋白的口袋区域的可视化
进一步地,通过图3展示了四种具有适当药物样性质的生成药物,这些药物来自KIBA和BindingDB生成集。更直观地,图4对比了生成药物与原始药物在对应靶点的对接位点,两者展现出了相同的结合位点,这一发现进一步证实了所提出模型生成靶点感知药物的成功。
3.9 生成药物的化学分析

图5 KIBA测试集和使用模型生成的分子之间的性质分布
本文对DeepDTAGen模型生成的药物进行了化学分析,以验证其在化学相似性、结构特征以及符合Lipinski五规则等方面的性能。图5展示了KIBA测试集和使用训练好的KIBA模型生成的分子之间的性质分布,包括QED、LogP和SAS等关键属性。结果显示,无论是采用SMILES合成方法还是随机方法生成的分子,都展现出与原始KIBA测试集相同的化学性质分布。

图6 BindingDB测试集和使用模型生成的分子之间的性质分布
此外,对BindingDB数据集上的生成药物进行了类似的分析。图6揭示了BindingDB测试集与生成药物之间的化学相似性,生成的药物在QED、LogP和SAS上的平均值与测试集药物相当。

图7 DeepDTAGen生成的所有药物的性质分布
文章还评估了生成药物是否符合Lipinski五规则,这是药物发现中用于评估口服生物利用度所必需的物理化学性质的广泛应用的指南。大多数生成的分子满足这些规则(图7),这进一步证明了模型在生成具有潜在药物性质的分子方面的有效性。

图8 KIBA测试集的原始药物与DeepDTAGen使用On SMILE和Stochastic SMILE方法生成的药物之间结构特征的比较

图9 BindingDB测试集的原始药物与DeepDTAGen使用On SMILE和Stochastic SMILE方法生成的药物之间结构特征的比较
在结构特征分析方面,文章比较了生成药物与原始药物之间的原子类型、键类型和环类型的分布。结果表明,使用SMILES方法生成的药物的结构特征分布与测试集相当或甚至更高(图8/图9),而随机方法生成的药物的结构特征分布则低于测试集的分布。这可能归因于模型在处理基于提供的SMILES字符串的结构相干分子时的专注度。
3.10 基于随机方法的药物生成
随机方法仅考虑靶序列作为输入,而将SMILES替换为模型生成的随机元素,这种方法允许研究人员为不同的靶蛋白生成药物。以表皮生长因子受体(EGFR,PDBID: P00533)为例,该受体与肺癌细胞高度相关。使用EGFR序列作为输入,针对KIBA和BindingDB预训练模型生成药物。生成药物后,通过考虑QED(药物启发性)、LogP(脂溶性)和SAS(可合成性)等参数来评估它们的化学性质。此外,使用AutoDock VINA评估生成药物与EGFR靶蛋白的相互作用。

图10 生成的药物与EGFR蛋白之间的相互作用可视化
图10展示了生成的SMILES、药物的2D和3D结构以及EGFR蛋白的口袋区域,以及它们的QED、LogP和SAS评分。图中红色高亮的折叠代表与生成药物结合的氨基酸,这些折叠是根据UniProt库确定的结合残基。可以看出,两种预训练模型生成的药物均成功连接到EGFR蛋白上。此外,图中两个面板中的红色突出的折叠代表生成药物的附着氨基酸,根据UniProt library,这些折叠是结合残基。结果表明,所提出的模型能够生成具有良好化学性质的靶点感知药物。
3.11 生成药物的多药效成药性评价
在药物发现领域,多药理学(polypharmacology)正逐渐成为研究的热点。多药理学指的是单一药物能够作用于特定疾病的多个靶点,或者对多个疾病的多个靶点发挥作用。这种药物作用模式对于理解药物的非靶向效应和提高药物选择性至关重要,尤其在多靶点药物设计和药物再利用的背景下。本文评估了DeepDTAGen模型生成药物的多药理学效应,以验证其在药物发现中的潜在价值。

图11 生成药物的多药理学药物能力
通过从KIBA和BindingDB数据集中选择具有适当药物样性质的生成药物,这些种子药物至少与三个其他靶蛋白相互作用。利用AutoDock VINA工具,我们预测了这些生成药物与它们的种子蛋白以及其他三个活跃蛋白的对接得分。如图11所示,尽管生成药物对其他三个靶蛋白的亲和力略低于它们的种子蛋白,但它们对活跃于种子药物的靶点保持了多药理学效应。
3.12 DTI驱动的靶向感知药物生成指导
为了验证药物-靶点相互作用(DTI)任务是否能够指导模型从潜在空间中提取靶点感知特征,本文通过消除预测任务来训练模型,仅使用药物编码器、潜在空间和解码器。
训练完成后,在两个数据集上生成新药物的SMILES,并使用AutoDock VINA预测每个生成药物与数据集中活跃靶蛋白的对接得分。同时,预测DeepDTAGen生成的SMILES与其种子靶蛋白之间的对接得分。为了确保公平比较,排除了简单编码器-解码器模型未能生成有效药物的相互作用,以及DeepDTAGen使用这些相互作用作为种子生成的药物。

图12 生成药物在KIBA和BindingDB数据集上与DeepDTAGen和Encoder-Decoder架构两种模型的对接得分比较
图12展示了多任务DeepDTAGen模型与单任务框架在药物生成方面的对接得分分布比较。结果显示,DeepDTAGen生成药物的对接得分分布相对较高,这验证了模型假设:DTI任务确实能够指导潜在空间提取靶点感知特征,从而提高生成药物的质量。
4.讨论
本文提出DeepDTAGen,一个多任务学习框架,能同时预测药物与靶点的亲和力和生成新药。此框架通过共享特征空间,学习药物与靶点的生物学关系,确保特征与药物和靶点高度相关。并通过广泛的实验验证了模型的有效性。在药物-靶点亲和力(DTA)预测中,药物选择性分析显示模型预测与生物学行为一致。随机化实验进一步验证了模型学习真实关系的能力。在生成任务中,模型成功生成靶点感知药物,DTA任务的包含提高了药物对种子靶点的亲和力,显示了其在指导药物生成中的有效性。
尽管DeepDTAGen在两任务上表现良好,但缺少对QED、LogP和SAS等化学属性的支持,并忽略了立体化学动态。未来工作将整合这些属性,嵌入立体化学信息,并通过引入非相互作用数据提高选择性,扩展模型应用。
总之,DeepDTAGen在药物发现领域展现了巨大潜力,能预测亲和力和生成新药,为药物设计和开发提供新方向。我们期待模型未来带来更多突破。
5.参考文献
论文链接:https://www.nature.com/articles/s41467-025-59917-6
想要了解更多资讯,请扫描下方二维码,关注机器学习研究会
转自:数据派THU