内容可向下滑动
第1天:环境搭建与
深度学习基本知识讲解
1.AIDD概述:从CADD到AIDD
2.软件安装与环境搭建
(1)anaconda
(2)vscode
(3)环境变量的配置
(4)切换pip和conda镜像源
(5)虚拟环境的创建
3.RDKIT
工具包的使用
(1)基于RDKit的分子读写
(2)基于RDKit的分子绘制
(3)基于RDKit的分子指纹与分子描述符
(4)基于RDKit
的化合物相似性与子结构
4.药物综合数据库的获取方法
(1)基于requests的基本爬虫操作
(2)小分子数据库PubChem数据获取(pubchempy / requests)
(3)蛋白质数据库PDB、UniProt数据获取
5.深度学习辅助药物设计
(1)神经网络基本概念与sklearn工具包介绍
(2)图神经网络与消息传递机制基本知识
(3)Transformer模型基本知识:分词、位置编码、注意力机制、编码器、解码器、预训练-微调框架、huggingface 生态介绍
(4)模型的评估与验证:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算,平均绝对误差、均方差、R2分数、可释方差分数,交叉验证等
第2天:顶刊复现专题1——分子与生化反应的表示学习与性质预测助力药物发现
培训背景:在人工智能辅助药物发现(AIDD)中,分子与生化反应的表示学习与性质预测是整个研究流程的基石。分子的结构决定其功能,如何将复杂的分子结构和生化反应过程有效地表示为计算模型能够理解的形式,是实现高效预测和优化的前提。通过构建合理的分子表示(如图神经网络、SMILES编码、指纹等),我们可以让AI模型捕捉关键的化学特征,进而用于预测分子的物理化学性质、生物活性、毒性等,为后续的虚拟筛选、分子生成与反应设计提供可靠基础。因此,本专题不仅奠定了AIDD中建模与预测能力的核心能力框架,也为整个药物发现过程中的智能决策打下了坚实基础。
培训内容1:
Nature Machine Intelligence|基于注意力的神经网络在化学反应空间映射中的应用《Mapping the space of chemical reactions using attention-based neural networks》
1.数据集
1.1.Pistachio数据集:包含260万化学反应,来自专利数据,涵盖792个反应类别。数据经过去重和有效性过滤(使用RDKit
)。
1.2.USPTO 1k TPL数据集:基于USPTO专利数据,包含44.5万反应,通过原子映射和模板提取生成1,000个反应模板类别。
1.3.Schneider 50k数据集:公开数据集,包含5万反应,50个类别,用于与传统指纹方法对比。
2.
模型。研究对比了两种Transformer架构:
2.1.BERT分类器:基于编码器的模型,通过掩码语言建模预训练后,在分类任务上微调,使用[CLS]标记的嵌入作为反应指纹(rxnfp)。
2.2.Seq2Seq模型:编码器-解码器结构,将分类任务分解为超类、类别和具体反应的层级预测。两者均采用简化版BERT(隐藏层256
维),输入为未标注的SMILES序列,无需反应物-试剂区分或原子映射。
3.训练。模型训练分为两步:
3.1.预训练:BERT通过掩码SMILES令牌预测任务进行自监督学习,学习反应通用表示。
3.2.微调:在分类任务上优化模型,使用交叉熵损失,学习率
2×10⁻⁵,序列长度512。评估采用混淆熵(CEN)和马修斯相关系数(MCC)以处理数据不平衡。
培训内容2:
TOP期刊|基于深度学习的生化反应产量预测《Prediction of chemical reaction yields using deep learning》
1.
数据。研究使用了三类数据:
1.1.Buchwald-Hartwig HTE数据集:包含3955个Pd催化C-N偶联反应,涵盖15种卤化物、4种配体、3种碱和23种添加剂组合,产率通过统一实验测量,数据质量高。
1.2.Suzuki-Miyaura HTE
数据集:包含5760个反应,涉及15对亲电/亲核试剂、12种配体、8种碱和4种溶剂的组合,产率分布均匀。
1.3.USPTO专利数据集:从公开专利中提取,包含不同规模(克级与亚克级)的反应产率,数据噪声大且分布不一致,需通过邻近反应产率平滑处理以提升模型表现。
2.模型。核心模型基于预训练的rxnfp(反应指纹)
BERT架构,新增回归层构成Yield-BERT。输入为标准化反应SMILES,通过自注意力机制捕捉反应中心及关键试剂的上下文信息。模型无需手工特征(如DFT计算描述符),直接端到端预测产率。实验表明,其性能优于传统方法(如随机森林和分子指纹拼接),尤其在HTE数据上接近化学描述符的预测水平,且参数鲁棒性高(超参数调整影响小)。
3.训练。训练分为两步:
3.1.预训练:BERT通过掩码语言任务学习SMILES的通用表示。
3.2.微调:采用简单Transformers库和PyTorch框架,以MSE损失优化回归层,学习率(2×10⁻⁵)和dropout率(0.1–0.8)为主要调参对象。HTE数据采用随机/时间划分验证,USPTO数据通过邻近反应产率平滑缓解噪声影响。小样本实验(5%训练数据)显示模型能快速筛选高产反应,指导合成优化。
培训内容3:
TOP期刊|基于T5Chem模型的生化反应表示学习与性质预测: 《Unified Deep Learning Model for Multitask Reaction Predictions with Explanation》
1.数据来源和处理。
通过自监督预训练与PubChem分子数据集进行训练,以实现对四种不同类型的化学反应预测任务的优异性能。模型处理包括反应类型分类、正向反应预测、单步逆合成和反应产率预测。
2.模型架构和原理。T5Chem模型是基于自然语言处理中的“Text-to-Text Transfer Transformer”(T5)框架开发的统一深度学习模型,该模型通过适应T5框架来处理多种化学反应预测任务。T5Chem模型包含编码器-解码器结构,并根据任务类型引入了任务特定的提示和不同的输出层,如分子生成头、分类头和回归头,以处理序列到序列的任务、反应类型分类和产品产率预测。
3.
训练过程和细节。
3.1.T5Chem模型首先在PubChem的97 million分子上进行自监督预训练,使用BERT类似的“masked language modeling”目标。
3.2.在预训练阶段,源序列中的tokens被随机掩蔽,模型的目标是预测被掩蔽的正确的tokens。
3.3.预训练完成后,模型在下游的监督任务中进行微调,使用不同的任务特定提示和输出层。
3.4.模型在测试阶段通过生成分子token by token的方式进行预测,直到生成“句子结束标记”或达到最大预测长度。
通过培训可以掌握的内容:
1.分子与化学反应的表示方法。学习如何将分子和化学反应编码为机器可处理的格式,如
SMILES(Simplified Molecular-Input Line-Entry System)和反应SMILES。理解分子指纹(如Morgan指纹)和反应指纹(如rxnfp)的构建方式,以及它们在化学信息学中的应用。掌握Transformer架构(如BERT)如何用于化学反应的特征提取,并生成具有化学意义的向量表示。
2.深度学习在化学反应预测中的应用。了解如何利用序列到序列(Seq2Seq)模型和BERT进行化学反应分类(如反应类型识别)和产率预测。学习如何通过自注意力机制分析化学反应的关键部分(如反应中心、试剂影响),提高模型的可解释性。掌握如何利用预训练+微调策略,使模型在少量标注数据下仍能取得良好性能。
3.数据驱动的化学研究范式。认识不同数据来源(如高通量实验HTE、专利数据USPTO)的特点及其对模型训练的影响。学习如何处理数据噪声,并通过数据平滑、邻近分析等方法优化模型表现。了解小样本学习在化学中的应用,例如如何用5%-10%的训练数据筛选高产率反应,指导实验优化。
第3天:顶刊复现专题2——蛋白质的表示学习与性质预测助力药物发现
培训背景
:在AIDD中,蛋白质是药物作用的主要靶标,其结构与功能的复杂性决定了药物设计的成败。蛋白质的表示学习与性质预测是理解分子-靶点相互作用、发现候选药物的重要环节。蛋白质,尤其是酶,作为药物的主要作用靶点,其功能、结构与动力学性质直接影响药物的设计与效果。本专题通过两篇前沿研究工作展开讲解:*《Enzyme function prediction using contrastive learning》展示了如何利用对比学习从蛋白质序列中提取高质量的功能表征,实现对酶功能的精确预测;《CatPred》*则提出了一个整合性深度学习框架,用于体外酶动力学参数(如Km、kcat等)的预测,这对于建立药效模型与优化先导化合物至关重要。这些方法显著提升了蛋白质建模的准确性与泛化能力,为
AI驱动的靶点发现、机制理解及候选药物筛选提供了强有力的支持。
培训内容1:
Nature Communication|体外酶动力学参数深度学习的综合框架《CatPred: a comprehensive framework for deep learning in vitro enzyme kinetic parameters》
CatPred 提出了一种全面的深度学习框架,用于预测体外酶动力学参数(kcat、Km、Ki),以解决实验测定成本高、数据稀疏和泛化能力差的问题。该方法不仅提供了准确的预测,还引入了对预测不确定性的量化,支持对训练集外(out-of-distribution)酶序列的稳健预测。此外,作者还构建了新的标准化数据集(
CatPred-DB),并对多种酶表示方法进行了系统比较。
1.数据:CatPred 使用的数据集来自 BRENDA 和 SABIO-RK 数据库,作者构建了 CatPred-DB,包括:23197 条 kcat,41174 条 Km和
11929 条 Ki 数据,每条记录都包含酶的氨基酸序列、AlphaFold 或 ESMFold 预测的结构、底物的 SMILES 表达式。数据经过清洗和标准化处理,去除缺失值和重复值,并对参数取对数转换以符合正态分布。
2.模型:CatPred 采用模块化设计,酶和底物分别通过不同的神经网络模块进行表征学习,并采用 概率回归 输出(高斯分布形式的均值和方差),允许进行 不确定性估计(aleatoric + epistemic)。
3.
训练
3.1.所有模型采用负对数似然损失函数(NLL)训练,以同时预测参数均值和不确定性。
3.2.使用训练-验证-测试三分法(80%-10%-10%),并设立“训练集外”的测试子集用于泛化能力评估。
3.3.为了评估不确定性,CatPred 使用 10个模型的集成,通过不同初始参数训练,以此量化 epistemic uncertainty。
3.4.模型训练时考虑了不同相似性(序列identity<99%、80%、60%、40%)的测试集,体现其鲁棒性。
培训内容2:
Science|基于对比学习的蛋白质分类属性预测《Enzyme function prediction using contrastive learning》
1.数据来源和处理: CLEAN
模型的训练基于UniProt数据库中的高质量数据,该数据库收录了约1.9亿个蛋白质序列。CLEAN模型以氨基酸序列作为输入,输出按可能性排序的酶功能列表(以EC编号为例)。为了验证CLEAN的准确性和鲁棒性,作者进行了广泛的in silico实验,并将CLEAN应用于内部收集的未表征的卤酶数据库(共36个)进行EC编号注释,随后通过案例研究进行体外实验验证。
2.模型架构和原理:
CLEAN模型采用了对比学习框架,目标是学习一个酶的嵌入空间,其中欧几里得距离反映了功能相似性。嵌入是指蛋白质序列的数值表示,它由机器可读,同时保留了酶携带的重要特征和信息。在CLEAN的任务中,具有相同EC编号的氨基酸序列具有较小的欧几里得距离,而具有不同EC编号的序列则具有较大的距离。
3.训练过程和细节:
3.1.在训练过程中,CLEAN模型使用对比损失函数进行监督训练,通过优先选择与锚点(anchor)嵌入具有小欧几里得距离的负序列,以提高训练效率。
3.2.模型使用语言模型ESM1b获得的蛋白质表示作为前馈神经网络的输入,输出层产生细化的、功能感知的输入蛋白质嵌入。
3.3.预测时,通过计算查询序列与所有EC编号聚类中心之间的成对距离来预测输入蛋白质的EC编号。
3.4.CLEAN还开发了两种方法来从输出排名中预测自信的EC编号:一种是贪婪方法,另一种是基于P值的方法。
通过培训可以掌握的内容:
1. 蛋白质表示学习的基本方法:理解蛋白质序列、结构信息如何被编码为适用于深度学习模型的向量表示,包括基于序列的预训练模型(如ESM、ProtBERT)和结构感知模型的原理与应用。
2. 对比学习在生物功能预测中的应用:深入学习对比学习策略,掌握如何通过正负样本构建来提升蛋白质功能分类模型的判别能力。
3. 酶动力学参数预测建模框架:学员将理解如何结合序列、结构及辅助特征,利用深度学习模型预测关键的酶学参数(如Km、kcat),并掌握模型架构设计与性能评估的思路。
4. 评估与可解释性分析方法:学习如何分析模型预测结果,评估性能指标,并探索特征重要性等可解释性技术,帮助理解模型的决策依据。
5. 应用于真实药物研发场景的思维框架:建立从蛋白质建模到下游任务(如药物筛选、作用机制分析)的系统性理解,增强将AI方法应用于实际生物医药问题的能力。
第4天:顶刊复现专题3——基于深度学习的分子生成助力药物发现
培训背景:分子生成是化学、生物学和材料科学等领域的关键技术,对于新药开发、新材料设计和化学反应预测具有重要意义。传统的分子生成方法依赖于专家知识和试错实验,耗时且成本高昂。随着人工智能技术的发展,特别是自然语言处理和扩散模型在分子生成中的应用,我们现在能够利用计算模型来加速这一过程。本课程将介绍从
NLP到扩散模型的设计模式,这些模型能够理解和生成分子结构,从而提高分子设计的效率和准确性。通过本课程的学习,参与者将能够掌握分子生成的最新技术和方法,以及如何将这些技术应用于实际问题。
培训内容1:
Nature Communication|基于端到端的图生成框架的分子生成:《Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing》
1.数据来源和处理:Graph2Edits模型使用了公开可用的基准数据集USPTO-50k,包含50016个反应,这些反应被正确地原子映射并分类为10种不同的反应类型。数据集被分为40k、5k、5k的反应用于训练、验证和测试集。
2.模型架构和原理:Graph2Edits模型是一个端到端的图生成架构,基于图神经网络(
GNN)预测产品图的编辑序列,并根据预测的编辑序列顺序生成中间体和最终反应物。该模型将半模板方法的两阶段过程(识别反应中心和完成合成子)合并为一锅学习,提高了在复杂反应中的适用性,并使预测结果更易于解释。模型的核心是图编码器和自回归模型,用于生成编辑序列,并应用这些编辑来推断中间体和反应物。
3.训练过程和细节:
3.1.Graph2Edits模型使用有向消息传递神经网络(D-MPNN)作为图编码器,以获取原子表示和全局图特征,并预测原子/键编辑和终止符号。
3.2.模型训练使用教师强制策略
,即使用真实的编辑序列作为模型输入。在每个编辑步骤中,模型会计算所有可能的编辑的概率,并选择最高分的k个编辑,将这些编辑应用于输入图以获得k个中间体。
3.3.在生成过程中,如果达到最大步骤数或图表示指示终止,则生成分支将停止。
3.4.最终,根据可能性对前k个编辑序列和图进行排名,收集为最终预测结果。
培训内容2
Nature Computational Science
|基于等变扩散模型的分子生成网络《Structure-based drug design with equivariant diffusion models》
1.简单介绍。这篇文献提出了一种基于结构的药物设计方法(SBDD),利用SE(3)-等变扩散模型(DiffSBDD)生成与蛋白质结合口条件匹配的新颖小分子配体。该方法通过将SBDD问题建模为三维条件生成任务,能够一次性生成所有原子位置,克服了传统自回归方法因顺序生成而丢失全局上下文的局限性。DiffSBDD不仅支持从头分子设计,还能通过属性优化、负向设计和分子局部修饰(inpainting)等多种任务灵活应用。
2.数据总结。该研究使用了
CrossDocked和Binding MOAD两个数据集进行训练和评估。
2.1.CrossDocked数据集包含40,344个训练蛋白-配体对和130个测试对,验证集规模为246个,确保不同集合中的蛋白质来自不同的酶分类主类以避免过拟合。
2.2.Binding MOAD数据集经过筛选后用于测试,分析限于所有方法均能生成样本的78个
CrossDocked和119个Binding MOAD目标。此外,数据集处理涉及移除损坏条目,并通过Zenodo公开提供处理后的数据和采样分子,确保研究可重复性。
3.模型总结。DiffSBDD是一个SE(3)-等变扩散模型,以蛋白质结合口为条件生成三维分子结构,采用3D图表示(原子坐标和类型),避免了传统方法中从密度图回推分子结构的复杂后处理。模型设计尊重三维空间的旋转和平
通过培训可以掌握的内容:
1.自然语言处理(NLP)在分子生成中的应用:掌握如何使用NLP技术来理解和生成分子结构。学习如何将自然语言描述转换为分子结构(SMILES字符串)。
2.扩散模型在分子生成中的应用:理解扩散模型的基本原理及其在分子生成中的优势。学习如何使用扩散模型来优化分子生成过程。
3.
数据预处理和特征工程:学习如何处理和准备用于训练分子生成模型的数据集。掌握如何从原始数据中提取有用的特征以提高模型性能。
4.模型架构和原理:深入理解MolT5,TGM-DLM和GraphEdits模型的架构和工作原理。学习如何设计和实现这些模型以处理复杂的分子生成任务。
5.训练过程和细节:掌握模型训练的全过程,包括预训练和微调。学习如何调整模型参数和训练策略以优化性能。
6.评估和验证:学习如何使用各种指标(如BLEU分数、Tanimoto
相似性等)来评估生成的分子。掌握如何验证模型生成的分子的有效性和准确性。
7.模型解释和可视化:学习如何解释模型的预测结果,以及如何使用可视化工具来理解分子生成过程。
8.最新研究进展和技术趋势:了解分子生成领域的最新研究进展和技术趋势。学习如何将最新的研究成果应用于实际工作。
第5天:顶刊复现专题4: 结合分子动力学的蛋白质-配体复合物相互作用动态预测
培训背景:蛋白质-配体相互作用的预测是现代药物发现和生物工程领域的核心任务之一,其重要性不言而喻。在药物开发过程中,准确预测蛋白质与小分子配体的结合位点、三维结构以及亲和力,不仅能够揭示分子间相互作用的机制,还能显著加速候选药物的筛选与优化,降低研发成本和时间。传统实验方法如X射线晶体学和核磁共振虽然精确,但耗时长、成本高,且难以应对大规模筛选需求。而随着深度学习和人工智能技术的快速发展,计算方法在蛋白质-配体预测中展现出巨大潜力。
研究内容1:
Nature Communication|交互作用感知的蛋白质-配体对接和亲和力预测模型《Interformer: an interaction-aware model for protein-ligand docking and affinity prediction》
1.
简要介绍:本研究提出了一种名为Interformer的基于Graph-Transformer架构的统一模型,用于蛋白-配体对接和亲和力预测。针对现有深度学习模型忽略蛋白与配体原子间非共价相互作用建模的不足,Interformer引入了交互感知混合密度网络(MDN)来明确捕捉氢键和疏水相互作用,并结合负采样策略和伪Huber损失函数,通过对比学习优化相互作用分布,提升对接姿势的准确性和亲和力预测的鲁棒性。
2.数据集:研究使用了PDBBind时间分割测试集(333
个样本)评估对接准确性,Posebusters基准测试验证物理合理性,以及内部真实世界数据集测试泛化能力。训练数据来源于PDBBind晶体结构数据库。
3.模型:Interformer基于Graph-Transformer架构,包括:(1) 图表示模块,将原子作为节点、邻近关系作为边;(2) 掩码自注意力(MSA)机制,通过Intra-Blocks
和Inter-Blocks分别捕捉配体/蛋白内部及两者间的相互作用;(3) 交互感知MDN,融合四种高斯分布模拟常规力、疏水作用和氢键;(4) 边缘输出层整合节点和边特征预测能量;(5) 姿势评分和亲和力模块基于虚拟节点预测正确姿势和实验亲和力值。
4.训练细节:训练分两阶段:首先基于晶体结构训练能量模型生成负样本,随后联合正负样本训练姿势评分和亲和力模型。采用负对数似然损失优化MDN,二元交叉熵损失优化姿势评分,伪Huber损失(σ=4
)优化亲和力预测(单位IC50、Kd、KI,经负对数归一化)。蒙特卡洛采样生成候选姿势,
研究内容2:
Nature Communication|分子动力学驱动的蛋白质-配体复合物结构动态预测《DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model
》
1.简单介绍:本研究提出了一种名为DynamicBind的深度学习方法,用于预测配体特异性的蛋白-配体复合物结构。传统分子对接方法通常将蛋白视为刚性或仅部分柔性,难以处理蛋白的大尺度构象变化,而分子动力学模拟虽然能捕捉动态构象,但计算成本高昂。DynamicBind通过等变几何扩散网络构建平滑的能量景观,高效模拟蛋白从无配体(apo)状态到配体结合(holo)状态的构象转变,无需依赖holo结构或大量采样。
2.
数据集:研究基于PDBbind2020数据库(19,443个蛋白-配体复合物晶体结构),按时间划分:2019年前的数据用于训练和验证,2019年的数据用于测试。额外构建了Major Drug Targets (MDT)测试集(599对),聚焦激酶、GPCR等主要药物靶点,要求AlphaFold预测结构与晶体结构的pocket RMSD>2Å,确保测试难度。训练中通过AlphaFold预测结构与晶体结构插值生成蛋白部分的样本。
3.模型:DynamicBind是一个基于图神经网络的等变生成模型,使用粗粒化表示(蛋白以Cα节点和侧链二面角表示,配体以重原子节点表示),输出包括蛋白和配体的平移、旋转、扭转角更新,以及结合亲和力和cLDDT置信度评分。模型通过学习从apo到holo的“morph-like”变换,优化能量景观,包含63.67百万参数。
4.
训练细节:训练在8块Nvidia A100 80GB GPU上进行5天,输入为添加morph变换的蛋白decoy构象和加高斯噪声的配体构象,目标是去噪操作。损失函数包括八项(配体和蛋白的平移、旋转、扭转等),通过Kabsch算法对齐apo和holo结构,结合扩散噪声调整构象过渡。推理时迭代20次更新初始结构。
通过培训可以掌握的内容:
1.蛋白质-配体复合物结构预测:学员将学习如何利用深度学习方法(如NeuralPLexer)从蛋白序列和配体分子图预测复合物的三维结构,理解多尺度几何建模和扩散过程在捕捉原子级分辨率结构及构象变化中的作用,并掌握其在盲对接和柔性结合位点恢复中的应用。
2.对接姿势生成与优化:掌握基于Graph-Transformer架构和蒙特卡洛采样生成对接姿势的技术,学习如何通过姿势评分和对比学习(如伪Huber损失)优化姿势选择,提升对接准确性(如RMSD<2Å的成功率)。
3.亲和力预测的计算方法:学员将了解如何从对接姿势预测实验亲和力值(如IC50
、Kd、KI),掌握基于虚拟节点和对比学习的姿势敏感性训练策略,以提高亲和力预测的鲁棒性和实际应用价值。
4.模型评估与基准测试:熟悉常用基准数据集(如PDBBind)和评价指标(如RMSD、lDDT-BS、TM-score)的使用,理解如何通过时间分割测试集和物理合理性检查评估模型的泛化能力和性能。
5.实际药物设计的应用:通过案例分析(如Interformer筛选出高亲和力小分子),学习如何将这些预测技术应用于酶工程和药物发现,加速候选分子的筛选和优化过程。