Py学习  »  机器学习算法

Nature重磅!超越传统:深度学习赋予基因组学“透视未来”的魔力,改写生命分析规则

碱基序列 • 昨天 • 101 次点击  

2025年,美国华盛顿大学生物化学系David Baker团队在《Nature Methods》(IF=36.1)上发表题为“Atomic context-conditioned protein sequence design using LigandMPNN”的研究论文,提出一种基于深度学习的能够显式模拟非蛋白质组分的蛋白质序列设计方法—LigandMPNN。该方法在恢复与小分子、核苷酸和金属相互作用的天然氨基酸序列方面显著优于现有的Rosetta和ProteinMPNN方法。该方法提高蛋白质与非蛋白质分子相互作用的设计能力,从而为酶、传感器和结合蛋白的设计提供更高效、更准确的工具。

   


图片


AI赋能酶设计新突破:深度学习精准构建丝氨酸水解酶,催化效率提升10万倍

酶是自然界中最强大的催化剂它们能在温和的水溶液条件下显著加速化学反应。从工业化学品合成到塑料回收,从医药研发到环境修复,如果能够设计出催化任意化学反应的新型酶,将为众多领域带来革命性变革。然而,从零开始设计多步反应机制的复杂酶一直是计算蛋白质设计领域的重大挑战。

近日,华盛顿大学蛋白质设计研究所David Baker团队发表于《Science》的研究论文"Computational design of serine hydrolases"展示了酶设计领域的重大突破。研究团队结合RFdiffusion的生成能力和PLACER的预组织评估方法,从最小活性位点描述出发,设计出了具有催化效率高 丝氨酸水解酶,实现了与天然酶相媲美的催化能力更令人惊叹的是,这些设计的酶在折叠结构上与天然丝氨酸水解酶完全不同,开创了这一古老酶家族的全新结构空间。

作为2025年最值得期待的技术!AI蛋白质设计资料与学习途径少之又少,特培训学习迫在眉睫!联合清华大学、北京大学、西湖大学、浙江大学、中国科技技术大学、天津大学、协和药物研究所、上海药物研究所已经举办培训六十七期,参会学员达7000余人!学员好评极高!其中不乏有发表Nature、Cell、Science等国际顶刊!




                         六大顶尖课程                                

01  AI蛋白质设计线上直播课

02  AIDD人工智能药物发现与设计线上直播课

03  CADD计算机辅助药物设计精品录播课

04  深度学习基因组学线上直播课

05  机器学习代谢组学线上直播课

06  机器学习微生物多组学联合分析线上直播课

图片

01

AI蛋白质设计线上直播课
多种蛋白质设计方法、深度学习酶设计、深度学习抗体设计等流程!让学员快速学会David baker核心方法!培训理论结合实操!提供服务器使用!通过详细讲解实操AlphaFold2、AlphaFold3以及pymol和Foldseek等软件让学员学会蛋白质结构预测!通过详细讲解实操ESM系列(ESM-1b、ESM-1v、ESM2、ESMC、ESM3)、GPT的生成模型ProGen让学员学会蛋白质大语言模型!通过详细讲解实操ProteinMPNN、LigandMPNN、ThermoMPNN、Rfdiffusion等软件让学员学会多种蛋白质设计方法!最后通过深度学习酶设计与深度学习抗体设计让学员通过不同方向不同方法更全面的了解蛋白质设计当下的全面性!六天培训流程循序渐进!知识点全覆盖!更是讲解十篇顶刊文献,让学员更好的知道当下蛋白质设计的核心热点以及优势!


图片

可滑动查看

第一天:蛋白质设计序列分析

1.环境搭建:Linux,VS code,Jupyter notebook

2)超算的登录

3)Linux系统的常用shell命令:vim, ls, cd, less, rm等

4)一些package安装的常用命令:pip, conda, source等 

5)Jupyter notebook的安装和使用

6)VS code的基本配置:连接服务器;选择不同python版本的Interpreter;debug模式的使用等

2.获得同源序列

1)了解不同蛋白质序列库,如UniRef90,UniClust30,Pfam等

2)了解不同工具原理并使用:NCBI BLAST,Jackhmmer,HHblits

3)给定一条蛋白质序列,比对序列库,生成多序列比对(MSA)

从AlphaFold2的经典代码仓库中找到它的生成MSA的代码并学习(alphafold/alphafold/data/tools/jackhmmer.py)

3.对MSA进行频率分析

1)使用python的文本文件操作实现

2)使用python中biopython包实现

3)绘制序列Logo,可视化的展示每个位点的氨基酸频率和保守性 

4.序列的同源性计算和进化树的绘制

1)不同同源性的计算方法及应用情景,氨基酸序列的identity和Similarity,BLOSUM62的介绍

2)进化树的绘制

5.基于序列相似性阈值划分训练集和测试集

1)为什么要做?避免数据泄露

2)选择相似性度量方法

3)相似性矩阵的计算

4)划分数据集

6.大规模蛋白质序列的聚类分析和去冗余*

1)为什么要做?防止过度学习某一类序列特征,消除序列偏差;也能防止训练过程中数据泄露

2)聚类方法的选择,CD-HIT、MMseq2和Linclust

3)选择代表序列,去冗余

4)实际复现S2ALM这一模型文章中的聚类方法

第二天:蛋白质设计结构分析

图片


1.蛋白质结构预测方法
2)从CASP比赛结果来简述蛋白质结构预测方法的发展。基于能量函数 -> 接触图的应用 -> 端到端的预测结构(AlphaFold2)
图片
3)AlphaFold2的模型相比于以前的方法有什么改进
4)将基于MSA和基于模板的方法整合,使用注意力机制进行MSA信息和模板信息的相互交流
5)以前提取MSA信息为计算协方差矩阵 ,AlphaFold2创造性的直接将MSA信息作为输入,将图像识别的算法转变成了自然语言处理算法,减少了中间处理过程中的信息损失
6)AlphaFold3相比于AlphaFold2改进了什么,还有什么不足
7)扩展到了多种生物分子的复合物结构预测,包括蛋白质-DNA、蛋白质-RNA、蛋白质-小分子,并使用扩散模型
8)复合物组装与动态预测缺陷,抗体-抗原复合物结构准确度有待提高。
9)运行网页server上的AlphaFold3预测结构
10)如何使用AlphaFold3预测蛋白质的糖基化,不同糖基化的类型的输入方法。
11)AlphaFold3输出结果分析,各项置信度指标的含义,以及如何判断预测的准确度,如pLDDT,ipTM,PTM,PAE
12)本地部署和运行ColabFold,由于AlphaFold3在安装过程中需要下载大量资源,且不能商用,因此不演示AlphaFold3的安装过程,如有问题可以帮助解决
2.蛋白质结构分析和可视化
1)pdb文件的解读,每一行中的内容代表什么含义。
2)用 pymol 可视化蛋白质结构
a)pymol的基础操作讲解
b)如何将实验值投影到结构图的颜色上,如何画出发表文章中好看的图
图片
3)计算蛋白质结构中两个氨基酸的距离
a)使用python的文本文件操作实现
b)使用python中biopython包实现
3.蛋白质结构相关物理性质的计算
1)二级结构的分类和计算
2)溶剂可及表面积(SASA)的讲解及计算
3)蛋白质表面电荷分布的计算
4.结构快速比对工具Foldseek介绍及使用
1)Foldseek原理讲解,3Di字母表,结构信息的序列化编码
图片
2)结构相似性搜索实战,从蛋白质结构数据库中搜索相似结构 
3)根据结构相似性阈值聚类
4)聚类输出结果的讲解和处理
第三天:蛋白质设计的大语言模型及应用

图片1.基础知识讲解

1)介绍蛋白质的语言模型(26字母语言模型->20氨基酸字母表,上下文依赖->氨基酸的共进化)

2)为什么要开发蛋白质大语言模型?1. 相比于结构或功能信息,序列信息更加海量;2. 蛋白质序列通过进化而来,可以学习蛋白质基本规律,折叠,共进化等

3)模型架构和基础理论:transformer,多头注意力机制, Bert,GPT,T5等

2.基于Bert架构的蛋白质语言模型

1) ESM系列(ESM-1b、ESM-1v、ESM2ESMC


图片


2)ESMFold:无需MSA信息的结构预测

3)使用抗体序列库训练的语言模型:Ablang,AntiBERTy

3.类似GPT的生成模型ProGen

1)36层Transformer解码器架构,包含12亿参数

2)引入“控制标签”(如蛋白质家族ID、功能属性)作为输入,生成蛋白质序列空间以外的新的蛋白质序列

3)成功生成新的溶菌酶

4.多模态的蛋白质语言模型ESM3

1)模型架构融合序列,结构和功能信息

2)相比于ESMFold,单体结构预测精度更好

3)基于多模态提示(序列、结构、功能关键词)设计新的蛋白质序列

4)ESM3的安装,生成序列,快速结构预测。

5.蛋白质语言模型的应用实战演练

1)获得序列embedding以构建下游模型(Cell systmes文章举例)

2)使用不同的蛋白质语言模型,零样本的预测蛋白质突变效应

3)给定少量的突变效应数据作为训练数据,训练模型,预测新的突变效应值

第四天:蛋白质设计实战应用
1.基础知识讲解


1)三类方法在不同程度上探索蛋白质序列空间:
a)蛋白质定向进化(directed evolution)
b)固定蛋白质主链的序列设计(Fix-backbone protein design)
c)蛋白质的从头设计(De novo protein design)
图片
 2)关键数据库:RCSB PDB, SCOPe, CATH, UniRef, BFD等
3)常见概念和名词: rotamer, scaffold, motif,domain,backbone,side-chain,apo和holo结构
2.从David baker(2024年因蛋白质设计的贡献获得诺贝尔化学奖)的工作看蛋白质设计方法的发展
1)基于能量函数Rosettta的从头设计,Longxing Cao的Nature文章
2)幻化(Hallucination)生成,将蛋白质三维结构预测模型应用于蛋白质设计
3)ProteinMPNN(从结构生成序列);
4)LigandMPNN(结合配体的蛋白质设计);
5)ThermoMPNN(热稳定性优化的蛋白质设计)
6)Rfdiffusion(只设计backbone结构,扩散模型);
7)Rfdiffusion finetuned by antibody 
8)Protien Generator:序列和结构的协同设计
3.其他蛋白质设计方法,讲解模型原理,优劣,应用
1)设计结构
ProteinSGM(Nat. Comput. Sci):结合Rosetta MinMover优化结构
2)设计序列
a)ProGen(Cell Syst.):对蛋白质功能和家族的可控生成
b)ProtGPT2(Nat. Commun.):生成多样且符合自然规律的蛋白质序列
3)序列和结构的协同设计
a)Protpardelle(PNAS):叠加态(superposition state)概念
b)Chroma(Nature)
c)VibeGen:结合蛋白质动力学特征
4.不同蛋白质设计模型的系统比较
1)无条件单体生成:
a)在生成时间、序列与结构的合理性、序列与结构多样性等方面比较
b)方法选择的建议
2)基于motif的TEV蛋白酶的设计:不同方法设计的酶活性比较
5.不同的蛋白质设计方法的实操,将提供Google Colab环境,以确保代码运行成功
1)Rfdiffusion+ProteinMPNN生成序列,AphaFold2筛选序列。将学会各个包的安装,不同参数的选择,结合的hotspot位点选择。
2)计算SAP(Spatial Aggregation Propensity)的值,选择3-6个氨基酸作为hotspot,即结合位点;这里需要使用Rosetta进行计算,首先将安装rosetta,准备蛋白,再计算每一个氨基酸的SAP值,将SAP数值映射到结构上。选择hotspot位点。
图片
 a)Rfdiffusion结构设计,生成~10000个蛋白质主链结构
根据上面挑选得到的hotspot位点
b)ProteinMPNN-FastRelax进行序列设计,每一个主链结构两个对应的序列,共设计~20000个序列,再通过ProteinMPNN-FastRelax设计序列
c)筛选:使用AlphaFold2预测设计结构,预测的置信度pAE<10,预测结构与设计结构的RMSD<1A,从中挑选95个进行实验验证
3)BindCraft——序列生成和筛选的自动化实现
 BindCraft相比于Rfdiffusion+ProteinMPNN更加用户友好,一站式设计流程,序列的生成和筛选自动化实现。将讲解其中参数的设计和选择,如过滤序列条件、生成氨基酸的偏好性等
图片
4)Protein Generator、Chroma、Protpardelle生成序列的实现
第五天:深度学习酶设计实战应用

1.基础知识讲解

酶的过渡态理论,theozyme,fitness landscape,epistasis

2.从Frances H. Arnold(2018年因在酶的定向进化领域的贡献获得诺贝尔化学奖)的工作看酶的定向进化方法的发展

1.传统定向进化实验流程

2.MLDE(Mechine Learning Directed Evolution), 学习序列与酶性能之间的映射关系,推荐新的突变组合(PNAS文章)

3.ftMLDE(focused training MLDE),主动学习流程,构建informative的训练数据(Cell Systems文章)


图片



3.酶的从头设计

1.从头设计Diels-Alder催化酶

a)基于Rosetta的Inside-out策略(Science文章)

b)通过Foldit蛋白质折叠游戏改善结构问题(Nat. Biotechnol.文章);

c)Foldit蛋白质折叠游戏的实践*

2.从头设计荧光素酶,Family-wide hallucination,基于该酶家族的结构幻化出新的结构(Nature文章)

3.RFdiffusion+PLACER从头设计丝氨酸水解酶(Science文章)

4.利用预测结构的相似性,挖掘序列的新酶功能(cell文章)

1.InterPro数据库中下载数据

2.TM-score计算结构距离

3.UPGMA结构聚类,画出进化树

4.挑选序列


图片
第六天:深度学习抗体设计实战

1.抗体基础知识讲解:

1)VDJ重排,germline,CDR区域,表位(epitope/paratope),抗体亲和力成熟,抗体的可开发性等概念介绍

2)不同抗体编号方案(Kabat,Chothia,IMGT)讲解,使用python自动化对抗体序列编号,并识别CDR区域

3)抗体药物开发的基本流程

2.抗体亲和力成熟

1)Efficient evolution,基于序列的语言模型推荐突变点(Nat. Biotechnol.文章)

2)了解语言模型推荐突变点的原理

3)安装package和模型参数

4)运行以推荐突变点

5)Structure evolution,基于结构的语言模型推荐突变点(Science文章)

6)了解inverse folding推荐突变点原理

7)安装package和模型参数

8)DiffAb,扩散模型同时生成CDR区的序列和结构


图片


9)GSK、阿斯利康、诺和诺德等在抗体亲和力成熟上的工作

10)Chai2从头生成抗体

3.Adaptyv EGFR Binder比赛——设计EGFR的更高亲和力binder

1)比赛排名靠前的抗体/蛋白是如何设计的

a)第一轮比赛,排名第一的方法:BindCraft

b)第二轮比赛,排名第一的方法:Cradle,在Cetuximab的基础上,用的LLM,突变了10个FR的氨基酸

c)第二轮比赛,排名第二的方法:对一个纳米抗体进行人源化改造

d)第二轮比赛,排名第三的方法:保留与结合重要的氨基酸,生成其它氨基酸RFdiffusion+inverse folding

2)不同的筛选指标能否正确区分出可表达蛋白和不可表达蛋白、可结合蛋白和不可结合蛋白


图片


3)抗体可开发性优化

4)抗体可开发性优化在药物开发过程中的意义,

5)衡量抗体可开发性要考虑的因素,如免疫原性、自聚集性、结合特异性、稳定性等等

6)抗体性质预测的模型实践,展示在小样本的情景下训练机器学习/深度学习模型*

7)数据处理,划分数据集

8)模型构建,将构建两类模型

9)基于特征工程的机器学习模型(随机森林,XGboost,ElasticNet等);学习根据蛋白质序列和结构信息构建常见特征

10)使用语言模型获得序列embedding的深度学习模型

11)模型训练和评价:绘制训练曲线,训练集和测试集的评价指标随epoch的变化,GridSearchCV交叉验证调参等

12)模型的可解释性,特征重要性分析


图片


02

AIDD人工智能药物发现与设计线上直播课
本次培训主要掌握深度学习在化学反应预测中的应用,应用于真实药物研发场景的思维框架建立从蛋白质建模到下游任务(如药物筛选、作用机制分析)的系统性理解,增强将AI方法应用于实际生物医药问题的能力,自然语言处理(NLP)在分子生成中的应用 ,扩散模型在分子生成中的应用,通过案例分析(如Interformer筛选出高亲和力小分子),学习如何将这些预测技术应用于酶工程和药物发现,加速候选分子的筛选和优化


图片

可滑动查看

一、环境搭建与深度学习基本知识讲解

1.AIDD概述:从CADDAIDD

2.软件安装与环境搭建

(1)anaconda

(2)vscode

(3)环境变量的配置

(4)切换pipconda镜像源

(5) 虚拟环境的创建

3.RDKIT工具包的使用

(1)基于RDKit的分子读写

(2)基于RDKit的分子绘制

(3)基于RDKit的分子指纹与分子描述符

(4)基于RDKit的化合物相似性与子结构

4.药物综合数据库的获取方法

(1) 基于requests的基本爬虫操作

(2)小分子数据库PubChem数据获取pubchempy / requests

(3)蛋白质数据库PDBUniProt数据获取

5.深度学习辅助药物设计

(1)神经网络基本概念与sklearn工具包介绍

(2)图神经网络与消息传递机制基本知识

(3)Transformer模型基本知识:分词、位置编码、注意力机制、编码器、解码器、预训练-微调框架、huggingface 生态介绍

(4)模型的评估与验证:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算,平均绝对误差、均方差、R2分数、可释方差分数,交叉验证等

二、分子与生化反应的表示学习与性质预测助力药物发现

培训内容1:Nature Machine Intelligence|基于注意力的神经网络在化学反应空间映射中的应用《Mapping the space of chemical reactions using attention-based neural networks

1.数据集

1.1.Pistachio数据集:包含260万化学反应,来自专利数据,涵盖792个反应类别。数据经过去重和有效性过滤(使用RDKit)。

1.2.USPTO 1k TPL数据集:基于USPTO 专利数据,包含44.5万反应,通过原子映射和模板提取生成1,000个反应模板类别。

1.3.Schneider 50k数据集:公开数据集,包含5万反应,50个类别,用于与传统指纹方法对比。

2.模型。研究对比了两种Transformer架构:

2.1.BERT分类器:基于编码器的模型,通过掩码语言建模预训练后,在分类任务上微调,使用[CLS]标记的嵌入作为反应指纹(rxnfp )。

2.2.Seq2Seq模型:编码器-解码器结构,将分类任务分解为超类、类别和具体反应的层级预测。两者均采用简化版BERT(隐藏层256维),输入为未标注的SMILES序列,无需反应物-试剂区分或原子映射。

3.训练。模型训练分为两步:

3.1.预训练:BERT通过掩码 SMILES令牌预测任务进行自监督学习,学习反应通用表示。

3.2.微调:在分类任务上优化模型,使用交叉熵损失,学习率2×10⁻⁵,序列长度512。评估采用混淆熵(CEN)和马修斯相关系数(MCC)以处理数据不平衡。


培训内容2:TOP期刊|基于深度学习的生化反应产量预测《Prediction of chemical reaction yields using deep learning》 

1.数据。研究使用了三类数据   

1.1.Buchwald-Hartwig HTE数据集:包含3955Pd催化C-N偶联反应,涵盖15种卤化物、4种配体、3种碱和23种添加剂组合,产率通过统一实验测量,数据质量高。  

1.2.Suzuki-Miyaura HTE数据集:包含5760个反应,涉及 15对亲电/亲核试剂、12种配体、8种碱和4种溶剂的组合,产率分布均匀。  

1.3.USPTO专利数据集:从公开专利中提取,包含不同规模(克级与亚克级)的反应产率,数据噪声大且分布不一致,需通过邻近反应产率平滑处理以提升模型表现。

2.模型。核心模型基于预训练的rxnfp(反应指纹)BERT架构,新增回归层构成Yield-BERT。输入为标准化反应SMILES ,通过自注意力机制捕捉反应中心及关键试剂的上下文信息。模型无需手工特征(如DFT计算描述符),直接端到端预测产率。实验表明,其性能优于传统方法(如随机森林和分子指纹拼接),尤其在HTE数据上接近化学描述符的预测水平,且参数鲁棒性高(超参数调整影响小)。

3.训练。训练分为两步:  

3.1.预训练:BERT通过掩码语言任务学习SMILES的通用表示。  

3.2.微调:采用简单Transformers库和PyTorch框架,以MSE损失优化回归层,学习率(2×10⁻⁵ )和dropout率(0.1–0.8)为主要调参对象。HTE数据采用随机/时间划分验证,USPTO数据通过邻近反应产率平滑缓解噪声影响。小样本实验(5%训练数据)显示模型能快速筛选高产反应,指导合成优化。


图片



培训内容3:

TOP期刊|基于T5Chem模型的生化反应表示学习与性质预测Unified Deep Learning Model for Multitask Reaction Predictions with Explanation

1.数据来源和处理。通过自监督预训练与PubChem分子数据集进行训练,以实现对四种不同类型的化学反应预测任务的优异性能。模型处理包括反应类型分类、正向反应预测、单步逆合成和反应产率预测。

2.模型架构和原理T5Chem模型是基于自然语言处理中的“Text-to-Text Transfer Transformer”(T5)框架开发的统一深度学习模型,该模型通过适应 T5框架来处理多种化学反应预测任务。T5Chem模型包含编码器-解码器结构,并根据任务类型引入了任务特定的提示和不同的输出层,如分子生成头、分类头和回归头,以处理序列到序列的任务、反应类型分类和产品产率预测。

3.训练过程和细节。

3.1.T5Chem模型首先在PubChem97 million分子上进行自监督预训练,使用BERT类似的“masked language modeling”目标。

3.2.在预训练阶段,源序列中的 tokens被随机掩蔽,模型的目标是预测被掩蔽的正确的tokens

3.3.预训练完成后,模型在下游的监督任务中进行微调,使用不同的任务特定提示和输出层。

3.4.模型在测试阶段通过生成分子token by token的方式进行预测,直到生成句子结束标记或达到最大预测长度。


图片
三、蛋白质的表示学习与性质预测助力药物发现

培训内容1: 

Nature Communication|体外酶动力学参数深度学习的综合框架《CatPred: a comprehensive framework for deep learning in vitro enzyme kinetic parameters

CatPred 提出了一种全面的深度学习框架,用于预测体外酶动力学参数(kcatKmKi),以解决实验测定成本高、数据稀疏和泛化能力差的问题。该方法不仅提供了准确的预测,还引入了对预测不确定性的量化,支持对训练集外(out-of-distribution)酶序列的稳健预测。此外,作者还构建了新的标准化数据集(CatPred-DB),并对多种酶表示方法进行了系统比较。

1. 数据CatPred 使用的数据集来自 BRENDA 和 SABIO-RK 数据库,作者构建了 CatPred-DB,包括:23197 条 kcat41174 条 Km11929 条 Ki 数据,每条记录都包含酶的氨基酸序列、AlphaFold  或 ESMFold 预测的结构、底物的 SMILES 表达式。数据经过清洗和标准化处理,去除缺失值和重复值,并对参数取对数转换以符合正态分布。

2.模型CatPred 采用模块化设计,酶和底物分别通过不同的神经网络模块进行表征学习,并采用 概率回归 输出(高斯分布形式的均值和方差),允许进行 不确定性估计(aleatoric + epistemic)。

3.训练

3.1.所有模型采用负对数似然损失函数(NLL)训练,以同时预测参数均值和不确定性。

3.2.使用训练- 验证-测试三分法(80%-10%-10%),并设立训练集外的测试子集用于泛化能力评估。

3.3.为了评估不确定性,CatPred 使用 10个模型的集成,通过不同初始参数训练,以此量化 epistemic uncertainty

3.4.模型训练时考虑了不同相似性(序列identity<99%80% 60%40%)的测试集,体现其鲁棒性。


图片



培训内容2:

Science|基于对比学习的蛋白质分类属性预测Enzyme function prediction using contrastive learning

1.数据来源和处理: CLEAN模型的训练基于UniProt数据库中的高质量数据,该数据库收录了约1.9亿个蛋白质序列。CLEAN模型以氨基酸序列作为输入,输出按可能性排序的酶功能列表(以EC编号为例)。为了验证CLEAN的准确性和鲁棒性,作者进行了广泛的in silico实验,并将CLEAN应用于内部收集的未表征的卤酶数据库(共36个)进行 EC编号注释,随后通过案例研究进行体外实验验证。

2.模型架构和原理: CLEAN模型采用了对比学习框架,目标是学习一个酶的嵌入空间,其中欧几里得距离反映了功能相似性。嵌入是指蛋白质序列的数值表示,它由机器可读,同时保留了酶携带的重要特征和信息。在CLEAN的任务中,具有相同EC编号的氨基酸序列具有较小的欧几里得距离,而具有不同EC编号的序列则具有较大的距离。

3.训练过程和细节:

3.1.在训练过程中,CLEAN模型使用对比损失函数进行监督训练,通过优先选择与锚点(anchor)嵌入具有小欧几里得距离的负序列,以提高训练效率。

3.2. 模型使用语言模型ESM1b获得的蛋白质表示作为前馈神经网络的输入,输出层产生细化的、功能感知的输入蛋白质嵌入。

3.3.预测时,通过计算查询序列与所有EC编号聚类中心之间的成对距离来预测输入蛋白质的EC编号。

3.4.CLEAN还开发了两种方法来从输出排名中预测自信的EC编号:一种是贪婪方法,另一种是基于P值的方法。


图片
四、基于深度学习的分子生成助力药物发现

培训内容1

Nature Communication基于端到端的图生成框架的分子生成Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing

1.数据来源和处理:Graph2Edits模型使用了公开可用的基准数据集USPTO-50k,包含50016 个反应,这些反应被正确地原子映射并分类为10种不同的反应类型。数据集被分为40k5k5k的反应用于训练、验证和测试集。

2.模型架构和原理:Graph2Edits模型是一个端到端的图生成架构,基于图神经网络(GNN)预测产品图的编辑序列,并根据预测的编辑序列顺序生成中间体和最终反应物。该模型将半模板方法的两阶段过程(识别反应中心和完成合成子)合并为一锅学习,提高了在复杂反应中的适用性,并使预测结果更易于解释。模型的核心是图编码器和自回归模型,用于生成编辑序列,并应用这些编辑来推断中间体和反应物。

3.训练过程和细节:

3.1.Graph2Edits模型使用有向消息传递神经网络( D-MPNN)作为图编码器,以获取原子表示和全局图特征,并预测原子/键编辑和终止符号。

3.2.模型训练使用教师强制策略,即使用真实的编辑序列作为模型输入。在每个编辑步骤中,模型会计算所有可能的编辑的概率,并选择最高分的k个编辑,将这些编辑应用于输入图以获得k个中间体。

3.3.在生成过程中,如果达到最大步骤数或图表示指示终止,则生成分支将停止。

3.4.最终,根据可能性对前k个编辑序列和图进行排名,收集为最终预测结果。


培训内容2

Nature Computational Science|基于等变扩散模型的分子生成网络《Structure-based drug design with equivariant diffusion models

1.简单介绍。这篇文献提出了一种基于结构的药物设计方法(SBDD),利用SE(3)-等变扩散模型(DiffSBDD)生成与蛋白质结合口条件匹配的新颖小分子配体。该方法通过将SBDD问题建模为三维条件生成任务,能够一次性生成所有原子位置,克服了传统自回归方法因顺序生成而丢失全局上下文的局限性。DiffSBDD不仅支持从头分子设计,还能通过属性优化、负向设计和分子局部修饰(inpainting)等多种任务灵活应用。

2.数据总结。该研究使用了CrossDocked Binding MOAD两个数据集进行训练和评估。

2.1.CrossDocked数据集包含40,344个训练蛋白-配体对和130个测试对,验证集规模为246个,确保不同集合中的蛋白质来自不同的酶分类主类以避免过拟合。

2.2.Binding MOAD数据集经过筛选后用于测试,分析限于所有方法均能生成样本的78CrossDocked119 Binding MOAD目标。此外,数据集处理涉及移除损坏条目,并通过Zenodo公开提供处理后的数据和采样分子,确保研究可重复性。

 3.模型总结。DiffSBDD是一个SE(3)-等变扩散模型,以蛋白质结合口为条件生成三维分子结构,采用3D图表示(原子坐标和类型),避免了传统方法中从密度图回推分子结构的复杂后处理。模型设计尊重三维空间的旋转和平


图片
五、结合分子动力学的蛋白质配体复合物相互作用动态预测

培训内容1: 

Nature Communication|交互作用感知的蛋白质-配体对接和亲和力预测模型《Interformer: an interaction-aware model for protein-ligand docking and affinity prediction

1.简要介绍:本研究提出了一种名为Interformer的基于Graph-Transformer架构的统一模型,用于蛋白-配体对接和亲和力预测。针对现有深度学习模型忽略蛋白与配体原子间非共价相互作用建模的不足,Interformer引入了交互感知混合密度网络(MDN)来明确捕捉氢键和疏水相互作用,并结合负采样策略和伪Huber 损失函数,通过对比学习优化相互作用分布,提升对接姿势的准确性和亲和力预测的鲁棒性。

2.数据集:研究使用了PDBBind时间分割测试集(333个样本)评估对接准确性,Posebusters基准测试验证物理合理性,以及内部真实世界数据集测试泛化能力。训练数据来源于PDBBind晶体结构数据库

3.模型Interformer基于Graph-Transformer架构,包括:(1)  图表示模块,将原子作为节点、邻近关系作为边;(2) 掩码自注意力(MSA)机制,通过Intra-BlocksInter-Blocks分别捕捉配体/蛋白内部及两者间的相互作用;(3) 交互感知MDN,融合四种高斯分布模拟常规力、疏水作用和氢键;(4) 边缘输出层整合节点和边特征预测能量;(5) 姿势评分和亲和力模块基于虚拟节点预测正确姿势和实验亲和力值。

4.训练细节 :训练分两阶段:首先基于晶体结构训练能量模型生成负样本,随后联合正负样本训练姿势评分和亲和力模型。采用负对数似然损失优化MDN,二元交叉熵损失优化姿势评分,伪Huber损失(σ=4)优化亲和力预测(单位IC50KdKI,经负对数归一化)。蒙特卡洛采样生成候选姿势,


图片



研究内容2:

Nature Communication 分子动力学驱动的蛋白质-配体复合物结构动态预测DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model

1.简单介绍:本研究提出了一种名为DynamicBind的深度学习方法,用于预测配体特异性的蛋白-配体复合物结构。传统分子对接方法通常将蛋白视为刚性或仅部分柔性,难以处理蛋白的大尺度构象变化,而分子动力学模拟虽然能捕捉动态构象,但计算成本高昂。DynamicBind通过等变几何扩散网络构建平滑的能量景观,高效模拟蛋白从无配体(apo)状态到配体结合(holo)状态的构象转变,无需依赖holo结构或大量采样。

2. 数据集:研究基于PDBbind2020数据库(19,443个蛋白-配体复合物晶体结构),按时间划分:2019年前的数据用于训练和验证,2019年的数据用于测试。额外构建了Major Drug Targets (MDT)测试集(599对),聚焦激酶、GPCR等主要药物靶点,要求AlphaFold预测结构与晶体结构的pocket RMSD>2Å,确保测试难度。训练中通过 AlphaFold预测结构与晶体结构插值生成蛋白部分的样本。

3.模型DynamicBind是一个基于图神经网络的等变生成模型,使用粗粒化表示(蛋白以节点和侧链二面角表示,配体以重原子节点表示),输出包括蛋白和配体的平移、旋转、扭转角更新,以及结合亲和力和cLDDT置信度评分。模型通过学习从apoholo“morph-like”变换,优化能量景观,包含63.67百万参数。

4.训练细节 :训练在8Nvidia A100 80GB GPU上进行5天,输入为添加morph变换的蛋白decoy构象和加高斯噪声的配体构象,目标是去噪操作。损失函数包括八项(配体和蛋白的平移、旋转、扭转等),通过Kabsch算法对齐apoholo结构,结合扩散噪声调整构象过渡。推理时迭代20次更新初始结构。

03

CADD计算机辅助药物设计精品录播课
本次培训主要掌握10种对接方法有:金属酶蛋白对接、蛋白-多糖对接、核酸-小分子对接、柔性对接、共价对接、蛋白-水合对接、蛋白-水分子-配体对接、抗体对接、大分子对接蛋白-多肽对接、大分子蛋白-蛋白对接, 以及数据库、同源建模、虚拟筛选和分子动力学模拟

图片

可滑动查看

一、pymol的使用与一般蛋白-配体分子对接

背景与理论知识以及工具准备

1.PDB数据库的介绍和使用

1.1数据库简介

1.2靶点蛋白的结构查询与选取

1.3靶点蛋白的结构序列下载

1.4靶点蛋白的下载与预处理

1.5批量下载蛋白晶体结构

2.Pymol的介绍与使用

2.1软件基本操作及基本知识介绍

2.2蛋白质-配体相互作用图解

2.3蛋白-配体小分子表面图、静电势表示

2.4蛋白-配体结构叠加与比对

2.5绘制相互作用力

3.notepad的介绍和使用

3.1优势及主要功能介绍

3.2界面和基本操作介绍

3.3插件安装使用

一般的蛋白

-配体分子对接讲解

1.对接的相关理论介绍

1.1分子对接的概念及基本原理

1.2分子对接的基本方法

1.3分子对接的常用软件

1.4分子对接的一般流程

2.常规的蛋白-配体对接

2.1收集受体与配体分子

2.2复合体预构象的处理

2.3准备受体、配体分子

2.4蛋白-配体对接

2.5对接结果的分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

二、虚拟筛选

1.小分子数据库的介绍与下载

2.相关程序的介绍

2.1 openbabel的介绍和使用

2.2 chemdraw的介绍与使用

3.虚拟筛选的前处理

4.虚拟筛选的流程及实战演示

案例:筛选新冠病毒主蛋白酶抑制剂

5.结果分析与作图

6.药物ADME预测

6.1ADME概念介绍

6.2预测相关网站及软件介绍

6.3预测结果的分析

三、拓展对接的使用方法

1.蛋白-蛋白对接

1.1蛋白-蛋白对接的应用场景

1.2相关程序的介绍

1.3目标蛋白的收集以及预处理

1.4使用算例进行运算

1.5关键残基的预设

1.6结果的获取与文件类型

1.7结果的分析

以目前火热的靶点

PD-1/PD-L1等为例。

2.涉及金属酶蛋白的对接

2.1金属酶蛋白-配体的背景介绍

2.2蛋白与配体分子的收集与预处理

2.3金属离子的处理

2.4金属辅酶蛋白-配体的对接

2.5结果分析

以人类法尼基转移酶及其抑制剂为例

3.蛋白-多糖分子对接

4.1蛋白-多糖相互作用

4.2对接处理的要点

4.3蛋白-多糖分子对接的流程

4.4蛋白-多糖分子对接

4.5相关结果分析

以α-糖苷转移酶和多糖分子对接为例

5.核酸-小分子对接

5.1核酸-小分子的应用现状

5.2相关的程序介绍

5.3核酸-小分子的结合种类

5.4核酸-小分子对接

5.5相关结果的分析

以人端粒

g -四链和配体分子对接为例。

操作流程介绍及实战演示

四、拓展对接的使用方法

1.柔性对接

1.1柔性对接的使用场景介绍

1.2柔性对接的优势

1.3蛋白-配体的柔性对接

重点:柔性残基的设置方法

1.4相关结果的分析

以周期蛋白依赖性激酶

2(CDK2)与配体1CK为例

2.共价对接

2.1两种共价对接方法的介绍

2.1.1柔性侧链法

2.1.2两点吸引子法

2.2蛋白和配体的收集以及预处理

2.3共价药物分子与靶蛋白的共价对接

2.4结果的对比

以目前火热的新冠共价药物为例。

3.蛋白-水合对接

3.1水合作用在蛋白-配体相互作用中的意义及方法介绍

3.2蛋白和配体的收集以及预处理

3.3对接相关参数的准备

重点:水分子的加入和处理

3.4蛋白-水分子-配体对接

3.5结果分析

以乙酰胆碱结合蛋白

(AChBP)与尼古丁复合物为例

五、分子动力学模拟(linux与gromacs使用安装)

1. linux系统的介绍和简单使用

1.1 linux常用命令行

1.2 linux上的常用程序安装

1.3体验:如何在linux上进行虚拟筛选

2.分子动力学的理论介绍

2.1分子动力学模拟的原理

2.2分子动力学模拟的方法及相关程序

2.3相关力场的介绍

3.gromacs使用及介绍

重点:主要命令及参数的介绍

4.origin介绍及使用

六、溶剂化分子动力学模拟的执行

1.一般的溶剂化蛋白的处理流程

2.蛋白晶体的准备

3.结构的能量最小化

4.对体系的预平衡

5.无限制的分子动力学模拟

6.分子动力学结果展示与解读

以水中的溶菌酶为例

七、蛋白-配体分子动力学模拟的执行

1.蛋白-配体在分子动力学模拟的处理流程

2.蛋白晶体的准备

3.蛋白-配体模拟初始构象的准备

4.配体分子力场拓扑文件的准备

4.1高斯的简要介绍

4.2 ambertool的简要介绍

4.3生成小分子的力场参数文件

5.对复合物体系温度和压力分别限制的预平衡

6.无限制的分子动力学模拟

7.分子动力学结果展示与解读

8.轨迹后处理及分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例      



图片
04

深度学习基因组学线上直播课
深入学习与了解深度学习基本框架与逻辑,同时掌握基本的生物信息学软件(Linux、R、python等)的使用,让学员能更好的应对基因组数据,挖掘出超越已有知识的新知识。而构建好的深度学习模型去探求新的研究思路和寻找新的潜在生物学机制,更好的服务于自身的科学研究和探索的过程中

图片

可滑动查看

第一天

理论部分

深度学习算法介绍

1.有监督学习的神经网络算法

1.1全连接深度神经网络DNN在基因组学中的应用举例

1.2卷积神经网络CNN在基因组学中的应用举例

1.3循环神经网络RNN在基因组学中的应用举例

1.4图卷积神经网络GCN在基因组学中的应用举例

2.无监督的神经网络算法

2.1自动编码器AE在基因组学中的应用举例

2.2生成对抗网络GAN在基因组学中的应用举例

实操内容

1.Linux操作系统

1.1常用的Linux命令

1.2 Vim编辑器

1.3基因组数据文件管理修改文件权限

1.4查看探索基因组区域

2.Python语言基础

2.1.Python包安装和环境搭建

2.2.常见的数据结构和数据类型

第二天

理论部分

基因组学基础

1.基因组数据库

2.表观基因组

3.转录基因组

4.蛋白质组

5.功能基因组

实操内容

基因组常用深度学习框架

1.安装并介绍深度学习工具包tensorflow, keraspytorch

2.在工具包中识别深度学习模型要素

2.1.数据表示

2.2.张量运算

2.3.神经网络中的“层”

2.4.由层构成的模型

2.5.损失函数与优化器

2.6.数据集分割

2.7.过拟合与欠拟合

3.基因组数据处理

3.1安装并使用keras_dna处理各种基因序列数据如BED GFFGTFBIGWIGBEDGRAPHWIG

3.2使用keras_dna设计深度学习模型

3.3使用keras_dna分割训练集、测试集

3.4使用keras_dna选取特定染色体的基因序列等

4.深度神经网络DNN在识别基序特征中应用

4.1实现单层单过滤器DNN识别基序

4.2实现多层单过滤器DNN识别基序

4.3实现多层多过滤器DNN识别基序

第三天

理论部分

卷积神经网络CNN在基因调控预测中的应用

1.Chip-Seq中识别基序特征G4,如DeepG4

2.Chip-Seq中预测DNA甲基化,DeepSEA

3.Chip-Seq中预测转录调控因子结合,DeepSEA

4.DNase-seq中预测染色体亲和性,Basset

5.DNase-seq中预测基因表达eQTLEnformer

实操内容

复现卷积神经网络CNN识别基序特征DeepG4 、非编码基因突变DeepSEA,预测染色体亲和性Basset,基因表达eQTL

1.复现DeepG4Chip-Seq中识别G4特征

2.安装selene_sdk,复现DeepSEAChip-Seq中预测DNA甲基化,非编码基因突变

3.复现Basset,从Chip-Seq中预测染色体亲和性

4.复现Enformer,从 Chip-Seq中预测基因表达eQTL

第四天

理论部分

深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用

1.SNP微阵列中预测拷贝数变异CNVDeepCNV

2.RNA-Seq中预测premiRNAdnnMiRPre

3.从蛋白序列中预测调控因子蛋白质,DeepFactor

实操内容

1.复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异

2.复现循环神经网络RNN工具 dnnMiRPre,从RNA-Seq中预测premiRNA

3.复现DeepFactor,从蛋白序列中识别转录调控因子蛋白质

第五天

理论部分

深度学习在识别及疾病表型及生物标志物上的应用

1.从基因表达数据中识别乳腺癌分型的深度学习工具DeepType

2.从高维多组学数据中识别疾病表型,XOmiVAE

3.基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE

实操内容

1.复现 DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型

2.复现XOmiVAE,从TCGA多维数据库中识别乳腺癌亚型

3.复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因   

案例实操图片:


图片
05

机器学习代谢组学线上直播课
1. 熟悉代谢组学和机器学习相关背景知识以及硬件和软件;2. 入门 R 语言和机器学习理论和常规使用;3. 掌握代谢组学从样本处理到上下游数据分析以及出图的全流程;4. 能复现 CNS 及其子刊级别杂志中代谢组学相关文章中的图片;5. 能灵活熟练地分析自己的代谢组数据

图片

可滑动查看


第一天上午

A1 代谢物及代谢组学的发展与应用

(1)  代谢与生理过程;

(2)  代谢与疾病;

(3)  非靶向与靶向代谢组学;

(4)  空间代谢组学与质谱成像(MSI);

(5)  代谢组学与药物和生物标志物;

(6)  代谢流与机制研究。

A2 代谢通路及代谢数据库

(1)  几种经典代谢通路简介;

(2)  三大常见代谢物库:HMDB 、METLIN 和 KEGG;

(3) 代谢组学原始数据库:Metabolomics Workbench 和 Metabolights. A3 参考资料推荐

第一天下午

A4 代谢组学实验流程简介

A5 色谱 、质谱硬件与原理解析

(1)  色谱分析原理与构造;

(2)  色谱仪和色谱柱的选择;

(3)  色谱的流动相:梯度洗脱法;

(4)  离子源、质量分析器与质量检测器解析;

(5)  质谱分析原理及动画演示;

(6)  色谱质谱联用技术(LC-MS);


第二天上午

B1 代谢物样本处理与抽提

(1) 各种组织、血液和体液等样本的提取流程与注意事项;

(2) 代谢物抽提流程与注意事项;

(3) 样本及代谢物的运输与保存问题;

B2 LC-MS 数据质控与搜库

(1) LC-MS 实验过程中 QC 和 Blank 样本的设置方法;

(2) LC-MS 上机过程的数据质控监测和分析;

(3) 代谢组学上游分析原理——基于 Compound Discoverer 与 Xcms 软件;

(4) Xcms 软件数据转换、提峰、峰对齐与搜库;

第二天下午

B3 R 软件基础

(1) R 和 Rstudio 的安装;

(2) Rstudio 的界面配置;

(3) R 中的基础运算和统计计算;

(4) R 中的包:包,函数与参数的使用;

(5) R 语言语法,数据类型与数据结构;

(6) R 基础画图;

B4 R 语言画图利器——ggplot2 包

(1) ggplot2 简介

(2) ggplot2 的画图哲学;

(3) ggplot2 的配色系统;

(4) ggplot2 数据挖掘与作图实战;


第三天上午

机器学习

C1 有监督式机器学习在代谢组学数据处理中的应用

(1) 人工智能、机器学习、深度学习的关系;

(2) 回归算法:从线性回归、Logistic 回归与 Cox 回归讲起;

(3) PLS-DA 算法:PCA 降维后没有差异的数据还有救吗?

(4) VIP score 的意义及选择;

(5) 分类算法:决策树,随机森林和贝叶斯网络模型;

C2 一组代谢组学数据的分类算法实现的 R 演练

(1) 数据解读;

(2) 演练与操作;

第三天下午

C3 无监督式机器学习在代谢组学数据处理中的应用

(1) 大数据处理中的降维;

(2) PCA 分析作图;

(3) 三种常见的聚类分析:K-means、层次分析与 SOM

(4) 热图和 hcluster 图的 R 语言实现;

C4 一组代谢组学数据的降维与聚类分析的 R 演练

(1) 数据解析;

(2) 演练与操作;


第四天上午

D1 在线代谢组分析网页 Metaboanalyst 操作

(1) 用 R 将数据清洗成网页需要的格式;

(2) 独立组、配对组和多组的数据格式问题;

(3) Metaboanalyst 中的上游分析(原始数据峰提取、峰对齐与搜库)

(4) Metaboanalyst 的 pipeline 以及参数设置和注意事项;

(5) Metaboanalyst 的结果查看和导出;

(6) Metaboanalyst 的数据编辑;

(7) 全流程演练与操作。

(8) 代谢联合多组学分析网页操作。

第四天下午

D2 代谢组学数据清洗与 R 语言进阶

(1) 代谢组学中的 t、fold-change 和响应值;

(2) 数据清洗流程;

(3) R 语言 tidyverse;

(4) 数据预处理:数据过滤与数据标准化(样本的 Normalization 和代谢物的 Scaling);

(5) 代谢组学数据清洗演练;


第五天上午

E1 文献数据分析部分复现(1 篇)

(1) 文献深度解读;

(2) 实操:从原始数据下载到图片复现;

(3) 学员实操。

第五天下午

E2 机器学习与代谢组学顶刊解读(3 篇);

(1) Signal Transduction and Targeted Therapy 一篇有关饥饿对不同脑区代谢组学影响变

化的小鼠脑组织代谢图谱类的文献;(数据库型)

(2) Cell 一篇代谢组学孕妇全程血液代谢组学分析得出对孕周和孕产期预测的代谢标志物

的文献;(生物标志物型)

(3) Nature 一篇对胰腺癌患者肠道菌群的代谢组学分析找到可以提高化疗效果的代谢物的

文献。(机制研究型) 

 案例实操图片:图片图片                                                         
06
图片

机器学习微生物多组学联合分析线上直播课
通过机器学习微生物组学+代谢组学+转录组学联合分析让学员能够快速运用到自己的科研项目和课题上,能够实现文章快速发表  

图片
图片

可滑动查看


第一天

微生物多组学简介

1. 微生物学基本概念

2.微生物学常用分析介绍

3.代谢组学基本概念及检测方法

4.转录组学基本概念及检测方法

5.机器学习基本概念介绍

R语言简介及实操

1.R 语言概述

2.R软件及R包安装

3.R语言语法及数据类型

4.条件语句

5.循环

6. 函数

7.常用的机器学习和微生物多组学数据分析相关R包介绍

第二天

微生物多组学相关数据库介绍及数据检索

1.肠道微生物+代谢数据库

2.Curated Metagenomic Data

3.IBDMDB数据库

4.GEO数据库

微生物多组学应用案例分享

1.利用机器学习基于微生物组学+代谢组学数据预测样本类型

2.整合微生物组学数据和代谢组学数据鉴定疾病相关模块

3.肿瘤研究中微生物组学+宿主转录组学+免疫联合分析

4.基于微生物组学数据+ 转录组数组+代谢组数据纵向集成分析

第三天(实操)

零代码微生物多组学整合和网络可视化分析工具介绍和使用

1.数据上传(支持8种不同类型的数据,包括微生物,代谢,基因,蛋白等)

2.根据数据类型选择相应的数据库

3.构建网络

4.可视化

零代码微生物组- 代谢组网络分析工具介绍和使用

1.构建菌群和代谢模型

2.使用代谢模型计算微生物对代谢物的贡献

3.计算群落水平的代谢潜能分值,使用回归模型评估潜能分值在不同样本中的差异

4.可视化特征微生物对特定代谢物的影响,并寻找关键微生物

零代码微生物组学和代谢组学相关性分析工具介绍和使用

  1. 1.组学内相关性分析

  2. 2.组学间相关性分析

  3. 3.多组学整合分析

  4. 4.多组学网络分析

  5. 5.结果可视化

第四天(实操+复现)

利用机器学习基于微生物组学+代谢组学数据预测样本类型

1.α-diversity,β-diversity分析

2.饮食与代谢物的动态关联分析

3. 微生物组差异与疾病特异性分析

4.多组学因子分析

5.菌群功能与代谢表型关联分析

6.整合微生物组学数据和代谢组学数据预测样本类型

整合微生物组学和代谢组学数据鉴定疾病相关模块

1.微生物组学和代谢组学数据整合

2.鉴定疾病相关的多组学模块

3.模块交集分析

4.利用机器学习基于模块预测疾病状态

5.重要模块分析

第五天(实操+复现)

肿瘤研究中微生物组学,宿主转录组学和免疫联合分析

1.微生物组学分析

2.转录组学分析,差异表达基因鉴定

3.通过CCA方法对微生物组学数据和宿主转录组学数据进行关联分析

4. 微生物免疫关联分析

基于微生物组学数据,转录组数组和代谢组数据纵向集成分析

1.肠道微生物组成分析

2.微生物组和代谢组联合分析

3.代谢组学和转录组学进行整合分析

4.微生物组-宿主互作分析

课程目标

1.了解微生物多组学相关概念

2.了解机器学习相关概念和常用的机器学习模型

3.了解R语言

4.掌握常用的微生物多组学数据分析以及机器学习相关R包的使用

5.掌握微生物组学/代谢组学/宿主转录组学联合分析思路和方法

6.复现SCI 文章

案例实操图片:

图片
图片

讲师介绍

图片
图片


图片


AI蛋白质设计

主讲老师在学术界和工业界都有丰富算法开发和应用经验,博士毕业于国内顶尖课题组,从事蛋白质结构预测和蛋白质设计的研究工作,相关工作成果已在Cell Systems、Angew. Chem. Int. Ed.、JCIM等国际知名期刊发表论文。目前在知名药企担任高级研究员,主导AI驱动的大分子药物设计平台开发与团队管理。

AIDD人工智能药物发现顶刊复现

主讲老师来自天津大学,有十余年的计算机算法研究和程序设计经验。研究方向涉及深度学习药物发现,药物合成路径设计等。发表SCI高水平论文10篇,包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊!

CADD计算机辅助药物设计

主讲老师来自协和生物所,老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动力学等方面的研究,在CNS发表文章数篇,有丰富的培训经验,已经培训学员达5000余人

机器学习代谢组学

主讲老师来自985高校神经科学博士,主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用(LC-MS)技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究,以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文10篇。

机器学习微生物多组学

主讲老师Dr. Li,生物信息学博士,有十余年的测序数据分析经验。研究领域涉及机器学习,芯片数据分析,核酸及蛋白序列分析,宏基因组学,DNA,RNA,甲基化测序数据分析,单细胞测序数据分析,miRNA及靶基因分析,生存分析及预后模型构建等。具有丰富的培训经验,举办过线上线下培训50余场。培训内容涉及机器学习在生物医学中的应用,机器学习在微生物学中的应用,机器学习在蛋白组学中的应用,单细胞多组学数据挖掘,WGCNA共表达网络构建,ceRNA网络构建,R语言基础等。发表SCI论文30余篇,其中一作及并列一作15篇,h指数20。

深度学习基因组学

主讲老师来自荷兰在读博士陈老师授课。在国内外学术刊物发表论文数篇,包括Nature Communication, Cell Regeneration等知名期刊,研究方向主要为染色质三维结构,生物信息学,发育生物学和遗传学等。利用多组学数据,通过深度学习算法进行数据分析和挖掘,包括ChIP-seq,ATAC-seq,RNA-seq,CNV等,解决并回答领域内多个基础的生物学机制。


授课时间

图片



图片


图片


01.AI蛋白质设计

2025.10.18——2025.10.19  (09:00-11:30--13:30-17:00)

2025.10.25——2025.10.26    (09:00-11:  30--13:30-17:00)

2025.11.1——2025.11.2  (09:00-11:  30--13:30-17:00)


02.AIDD人工智能药物发现与设计

2025.10.25——2025.10.26    (09:00-11:  30--13:30-17:00)

2025.11.1——2025.11.2  (09:00-11:  30--13:30-17:00)

2025.11.08            09:00-11:30--13:30-17:00)


03.CADD计算机辅助药物设计精品录播课

提供往期全程视频+资料PTT+软件+进群解疑



04.深度学习基因组学

2025.10.25——2025.10.26 (09:00-11:30--13:30-17:00)

2025.11.1——2025.11.2  (09:00-11:  30--13:30-17:00)

2025.11.8                    (09:00-11:  30--13:30-17:00)



05.机器学习代谢组学

2025.10.21——2025.10.24   (19:00--22:00)

2025.10.27——2025.10.30   (19:00--22:00)

2025.11.3-2025.11.4        (19:00--22:00)



06.机器学习微生物多组学联合分析

2025.10.18——2025.10.19  (09:00-11:30--13:30-17:00)

2025.10.25——2025.10.26    (09:00-11:  30--13:30-17:00)

2025.11.1          (09:00-11:  30--13:30-17:00)



腾讯会议直播上课            课后提供直播回放


                       培训费用超值福利

课程报名费用:

AI蛋白质设计直播课:

公费价:每人每班¥6880元 (含报名费、培训费、资料费、提供课后全程回放资料)

自费价:每人每班¥6580元 (含报名费、培训费、资料费、提供课后全程回放资料)


AIDD人工智能药物发现与设计直播课:

公费价:每人每班¥5880元 (含报名费、培训费、资料费、提供课后全程回放资料

自费价:每人每班¥5580元 (含报名费、培训费、资料费、提供课后全程回放资料


CADD计算机辅助药物设计录播、深度学习基因组学直播课、机器学习代谢组学直播课、机器学习微生物多组学联合分析直播课:

公费价:每人每班¥4980元 (含报名费、培训费、资料费、提供课后全程回放资料)
自费价:每人每班¥4680元 (含报名费、培训费、资料费、提供课后全程回放资料)


重磅优惠:

优惠1:

报二送一(同时报名两个班赠送一个学习班,赠送班任选)

两班同报:10880元  

三班同报:14880元

四班同报:18880元

特惠一:24880元 (可免费学习一整年本单位举办的任意课程)

特惠二:28880元(可免费学习两整年本单位举办的任意课程)

优惠2:提前报名缴费可享受300元优惠(报名一次可以免费学习一整年相同专题)

优惠3:报名直播课程可赠送往期课程回放

(报名一个赠送一个回放)

(报名三个直播课赠送下面全部课程)

(可点击跳转详情链接):

回放一:本课程为视频课!机器学习生物医学培训!

回放二:本课程为视频课!单细胞空间转录组培训!

回放三:本课程为视频课!比较基因组学培训!

回放四:本课程为视频课!机器学习蛋白质组学培训

回放五: 本课程为视频课!CRISPR-Cas9基因编辑培训

回放六:本课程为视频课!蛋白质晶体结构解析培训


                                    培训特色及福利
图片







1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿

2、学习模式--理论知识与上机操作相结合,让零基础学员快速熟练掌握

3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答


授课方式:通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高!


  腾讯会议实时直播解答|手把手带着操作

图片

学员评价

图片
图片

 

图片

图片


SIMPLICITY

官方联系人(请扫码详细咨询)



图片
联系人:周老师
报名咨询电话:18071419317(同V)


图片


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/187059
 
101 次点击