深度学习蛋白质设计与多组学迎来革命性进展！国内大佬手把手教授！

2024

科研前沿热点

2024最热科研汇总

一、深度学习蛋白质设计

二、CADD计算机辅助药物设计

三、深度学习基因组学

四、机器学习单细胞转录组与表观组

五、机器学习代谢组学

六、AIDD人工智能药物发现与设计

专题一

深度学习蛋白质设计

2024 年 5 月 8 日，谷歌 DeepMind 与 Isomorphic Labs 联合在《自然》期刊上发布蛋白质领域最新人工智能模型 AlphaFold 3！这一模型能够准确预测蛋白质、DNA、RNA 以及配体等生命分子的结构及其相互作用方式。这是继AlphaFold 2 之后的又一重大突破

在预测类药物相互作用方面，AlphaFold 3 实现了前所未有的准确度，包括蛋白质与配体的结合以及抗体与其靶蛋白的结合。在 PoseBusters 的基准测试中， AlphaFold 3 的准确率比现有最佳传统方法高出 50%，而且无需任何结构信息输入，成为首个超越传统物理预测工具的人工智能系统。这种预测抗体与蛋白质结合的能力，对于理解人类免疫反应的各个方面以及新抗体的设计至关重要。

深度学习在蛋白质设计领域的前沿研究主要集中在蛋白质结构预测、蛋白质序列设计、蛋白质-蛋白质相互作用预测、蛋白质功能注释和蛋白质优化与筛选等方面。这些研究方向为开发新的功能性蛋白质和药物靶点提供了新思路，并在生物医学、药物研发和生物材料等领深度学习在蛋白质设计领域的应用被认为是当前的前沿研究方向之一，蛋白质结构预测与设计领域的未来将充满创新和跨学科的发展，为解决生物医学、生物工程和生物能源等方面的重大问题提供更多可能性。

蛋白质折叠和结构预测

：深度学习模型可以预测蛋白质的三维结构，这对理解蛋白质的功能和开展蛋白质设计至关重要。通过深度神经网络模型和注意力机制的应用，可以更准确地预测蛋白质的折叠和结构。

蛋白质序列设计

：深度学习可以用于预测蛋白质序列的功能和稳定性。通过神经网络模型和自然语言处理技术的结合，可以设计出具有特定功能和稳定性的蛋白质序列，例如酶活性、药物靶点等。

蛋白质-蛋白质相互作用预测

：深度学习模型可以预测蛋白质和蛋白质之间的相互作用，从而帮助设计新的蛋白质复合物和抗体。

蛋白质功能注释和预测

：深度学习可以进行蛋白质功能注释和预测，识别蛋白质的功能域、结构域和功能位点等。这有助于预测蛋白质的功能和相应的生物学作用。

蛋白质优化和筛选

：深度学习可以用于优化和筛选设计出的蛋白质。通过神经网络和生成对抗网络的应用，可以提高蛋白质的稳定性、可溶性和活性，以满足特定的设计要求。

蛋白质-蛋白质相互作用预测

：深度学习可用于预测蛋白质与蛋白质之间的相互作用，从而实现蛋白质和配体的高效率设计和筛选等。

近年来发过哪些顶刊以及方向：

Nature communications| 使用基于结构的残基偏好进行蛋白质设计

Nature biotechnology| 用于功能性蛋白质设计的机器学习

Scientific reports| Deep-WET：一种基于深度学习的方法，使用具有加权特征的词嵌入技术预测 DNA 结合蛋白

Cell Systems| 深度学习为蛋白设计开启了新时代

讲师介绍

主讲老师来自中国TOP高校，在国内顶尖教授组中从事人工智能蛋白质设计研究，目前的主要研究方向是酶与结合蛋白的设计和人工智能在进化尺度上的蛋白质设计。有着丰富的实战经验。已在Applied Physics Letters，eLife，Nucleic Acids Research，ACS Omega，Journal of Molecular Biology等国际知名期刊上发表数篇工作

课表内容

NO.1

深度学习蛋白质设计（内容可向下滑动）

内容可向下滑动

第一天：深度学习蛋白质设计的相关概念及基础

1. 基础概念

a. 什么是深度学习

b. 什么是蛋白质设计 c. python 简介

d. inux 与 VS code 简介

2. 如何描述一个蛋白质的状态

a. 量子力学：含时薛定谔方程

b. 量子化学：定态薛定谔方程

c. 全原子分子动力学模拟：朗之万方程

d. 粗粒化模拟：广义朗之万方程 e. 马尔科夫态模型：主方程

3. 常用的分析/可视化蛋白质及相关分子的方法

a. 获得并观察一条蛋白序列的 MSA

b. 用 pymol 或 chimeraX 可视化蛋白质分子体系

c. 小分子结构的生成与优化： rdkit 与 GAMESS

d. 分子动力学模拟轨迹可视化： VMD

e. 通用序列/结构分析软件包： biopython

f. 生物大分子编辑平台： Discovery Studio

g. 位点冲突分析： Frustratomete

h. 简易生物分子空腔与通道分析： CAIN

4. 深度学习蛋白质设计与传统蛋白质设计之间的差异

a. 深度学习的本质

b. 传统方法：通过物理能量推测概率

c. 深度学习：直接从数据中找到概率分布的规律

d. 深度学习与传统的物理方法还是存在紧密联系的

e. 深度学习蛋白质设计的强大之处

f. 功能蛋白设计的滑铁卢：玻尔兹曼废墟

5. 结构模型 vs 语言模型

a. 结构模型：基于图神经网络

b. 语言模型：天涯若比

c. 结构模型的优势及劣势

d. 语言模型的优势及劣势

e. 走向融合

第二天：蛋白质设计的先行者：蛋白质结构预测

1. 在 AlphaFold 之前人们如何做蛋白质结构预测

a. 基于物理能量函数： rosetta

b. 传统分子对接

c. 分子动力学模拟

d. 同源序列分析

2. AlphaFold 系列历史

a. AlphaFold：开创一个时代

b. AlphaFold2：终结一个时代

c. AlphaFold3：走向未来

3. AlphaFold3 原理解析

a. 本质上不是从序列到结构，而是从 MSA 到结构

b. 注意力机制

c. 扩散模型

d. AlphaFold3 的成绩与不足

4. AlphaFold 实际操作与结果分析

a.AlphaFold2 实操

b.AlphaFold2 分析

c.AlphaFold3 实操

d.AlphaFold3 分析

e.别忽视结构之外的信息

5.其它深度学习蛋白质结构预测软件简介

a.trRosetta

b.OmegaFold

c.ESMFold

第三天：蛋白质大语言模型

1. 语言模型的发展历史

a.传统 K-gram 模型

b.标准 RNN 模型

c.以 LSTM 为代表的的改进 RNN 模型

d.基于注意力的 transformers 及后续

2.蛋白质语言模型的代表： ESM

a.模型框架

b.什么是蛋白质语法

c.各种各样的 ESM 模型

d.ESM 模型实际操作

3. 基于蛋白质语言模型的功能蛋白设计： Progen

a.基于 GPT

b.强大的功能

c.Progen 成功的秘诀

d. 不足之处

4. 基于 MSA 的蛋白质语言模型

a. 最经典的例子： MSAtransformer

b. 基于扩散模型的序列生成模型： EvoDiff

c.EvoDiff 的成功与不足

d. EvoDIff 实际操作

5.蛋白质语言模型前沿：

a.高成功率抗体人源化

b. 融合了结构信息的语言模型

c.InstructPLM 简介

第四天：深度学习蛋白质骨架设计

1.为什么要走先设计骨架再设计序列的道路

2.传统的蛋白质骨架设计

a.简单粗暴的结构拼接

b.理性地突变氨基酸以得到理想的结构

c.RosettaRemodel 简介

3.基于优化能量的蛋白质骨架设计模型： SCUBA

a.SCUBA 的基本原理其实很简单

b.核心难点以及克服方法

c.SCUBA 实际操作

d. 不足之处

4. 基于扩散模型的蛋白质骨架设计模型

a.改写时代的 RFdiffusion

b. 结合了 GAN 的 SCUBA-D

c.结合了 VQ 的 PVQD

5.实际的骨架从头设计流程：以结合蛋白从头设计为例

a.功能口袋的选取

b.带限制条件的骨架生成

c.迭代优化

d. 特殊手段

第五天：深度学习蛋白质序列设计

1. 传统的蛋白质序列设计

a.基于力场

b. 基于同源序列

c. 走向数据驱动： ABACUS 与 ABACUS2

d. ABACUS2 实际操作

2. 改变一个时代的杰作： ProteinMPNN

a. 在 GNN 之前：基于 CNN 的序列设计

b.ProteinMPNN 框架解析

c.ProteinMPNN 的广泛应

d.ProteinMPNN 实际操作

e. 潜在的问题

3. 其他的序列设计模型

a. ESM-IF 简介

b. ABACUS-R 简介

c. ABACUS-R 实际操作

4.神奇的 CarbonDesign

a.受 AlphaFold 的启发

b.CarbonDesign 框架解析

c. CarbonDesign 成功的原因

d. 然而序列恢复率高并不等价于功能蛋白序列设计成功率高

5.基于结构的序列设计之梦魇：本征无序区

a. 什么是本征无序区，为什么会存在本征无序区

b. 本征无序区对蛋白质的功能是至关重要的

c. 本征无序区序列设计欠佳的核心原因

d. 当前的解决方案

第六天：深度学习蛋白质设计前沿

1. 基于配体分子的功能蛋白设计

a. 骨架设计： RFdiffusionAllAtoms

b. 序列设计： LigandMPNN

2. 结构-序列协同设计

a. 为什么理论上协同设计要优于传统设计

b.协同设计的难点

c.当前协同设计所取得的进展

3. 动态蛋白质结构预测与设计

4.KAN 在深度学习蛋白质设计中的潜在应用

a. 机器学习的可解释性

b.物理信息机器学习

c.Kolmogorov-Arnold 表示定理

d.KAN vs MLP

e.KAN 潜在的优势

5.如何避免玻尔兹曼废墟是核心问题

6.展望未来

a.基于化学反应机理的酶从头设计

b.找到功能蛋白的蛋白质空间分布的 extropy

专题二

CADD计算机辅助药物设计

CADD计算机辅助药物设计：依据生物化学、酶学、分子生物学以及遗传学等生命科学的研究成果，以计算机化学为基础，通过计算机的模拟、计算和预算药物与受体生物大分子之间的相互作用，考察药物与靶点的结构互补、性质互补等，设计出合理的药物分子。它是设计和优化先导化合物的方法，特别是在食品、生物、化学、医药、植物、疾病方面应泛！靶点的发现与确证是现代新药研发的第一步，也是新药创制过程中的瓶颈之一。

学习目标：计算机辅助药物设计主要包含：PDB数据库、靶点蛋白、蛋白质-配体、蛋白-配体小分子、蛋白-配体结构、分子对接、蛋白-配体对接、虚拟筛选、蛋白-蛋白对接、蛋白-多糖分子对接、蛋白-水合对接、分子动力学等

分子对接：分子对接是通过受体的特征以及受体和药物分子之间的相互作用方式来进行药物设计的方法。主要研究分子间(如配体和受体)相互作用,并预测其结合模式和亲合力的一种理论模拟方法.近年来,分子对接方法已成为计算机辅助药物研究领域的一项最火最重要的技术。

虚拟筛选：虚拟筛选(virtual screening，VS)也称计算机筛选，即在进行生物活性筛选之前，利用计算机上的分子对接软件模拟目标靶点与候选药物之间的相互作用，计算两者之间的亲和力大小，以降低实际筛选化合物数目，同时提高先导化合物发现效率。

分子动力学：分子动力学是一门结合物理，数学和化学的综合技术。分子动力学是一套分子模拟方法，该方法主要是依靠牛顿力学来模拟分子体系的运动，以在由分子体系的不同状态构成的系统中抽取样本，从而计算体系的构型积分，并以构型积分的结果为基础进一步计算体系的热力学量和其他宏观性质。

近年来发过哪些顶刊以及方向：

计算机辅助药物设计|J. Med. Chem.|基于晶体结构的MPS1抑制剂的设计和优化

JCIM｜DockIT：虚拟现实交互的柔性分子对接

Nature Methods | 蛋白质序列的深度嵌入和比对

Trends Biochem Sci｜配体结合动力学计算方法研究进展

Curr Opin Struc Biol | 多目标药物设计中的人工智能

MDPI Processes | 分子动力学模拟在食品及其工艺中的应用

Food Chemistry | 分子对接和分子动力学模拟

目前计算机辅助药物设计受众人体众多，列如CADD、药物设计、药学、药物研发、药物筛选、新药研发、药物化学、生物制药、免疫、天然产物、兽药研发，生物信息、中药药理、中药化学、网络药理、结构药理、食品安全、食品风味、食药研发、食品研发、抗肿瘤药物、肿瘤免疫、酶工程、遗传、抗体药物、农业工程、化学、有机合成、有机化学、结构生物、合成生物等众多科研人员

讲师介绍

计算机辅助药物设计主讲老师来自国内高校北京协和医院药物研究所，老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动力学等方面的研究，有十余年的研究经验。

课表内容

NO.2

CADD计算机辅助药物设计（内容可向下滑动）

内容可向下滑动

第一天上午：背景与理论知识以及工具准备

1.PDB数据库的介绍和使用

1.1数据库简介

1.2靶点蛋白的结构查询与选取

1.3靶点蛋白的结构序列下载

1.4靶点蛋白的下载与预处理

1.5批量下载蛋白晶体结构

2.Pymol的介绍与使用

2.1软件基本操作及基本知识介绍

2.2蛋白质-配体相互作用图解

2.3蛋白-配体小分子表面图、静电势表示

2.4蛋白-配体结构叠加与比对

2.5绘制相互作用力

3.notepad的介绍和使用

3.1优势及主要功能介绍

3.2界面和基本操作介绍

3.3插件安装使用

下午：一般的蛋白-配体分子对接讲解

1.对接的相关理论介绍

1.1分子对接的概念及基本原理

1.2分子对接的基本方法

1.3分子对接的常用软件

1.4分子对接的一般流程

2.常规的蛋白-配体对接

2.1收集受体与配体分子

2.2复合体预构象的处理

2.3准备受体、配体分子

2.4蛋白-配体对接

2.5对接结果的分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

第二天：虚拟筛选

1.小分子数据库的介绍与下载

2.相关程序的介绍

2.1 openbabel的介绍和使用

2.2 chemdraw的介绍与使用

3.虚拟筛选的前处理

4.虚拟筛选的流程及实战演示

案例：筛选新冠病毒主蛋白酶抑制剂

5.结果分析与作图

6.药物ADME预测

6.1ADME概念介绍

6.2预测相关网站及软件介绍

6.3预测结果的分析

第三天：拓展对接的使用方法

1.蛋白-蛋白对接

1.1蛋白-蛋白对接的应用场景

1.2相关程序的介绍

1.3目标蛋白的收集以及预处理

1.4使用算例进行运算

1.5关键残基的预设

1.6结果的获取与文件类型

1.7结果的分析

以目前火热的靶点

PD-1/PD-L1等为例。

2.涉及金属酶蛋白的对接

2.1金属酶蛋白-配体的背景介绍

2.2蛋白与配体分子的收集与预处理

2.3金属离子的处理

2.4金属辅酶蛋白-配体的对接

2.5结果分析

以人类法尼基转移酶及其抑制剂为例

3.蛋白-多糖分子对接

4.1蛋白-多糖相互作用

4.2对接处理的要点

4.3蛋白-多糖分子对接的流程

4.4蛋白-多糖分子对接

4.5相关结果分析

以α-糖苷转移酶和多糖分子对接为例

5.核酸-小分子对接

5.1核酸-小分子的应用现状

5.2相关的程序介绍

5.3核酸-小分子的结合种类

5.4核酸-小分子对接

5.5相关结果的分析

以人端粒

g -四链和配体分子对接为例。

操作流程介绍及实战演示

第四天：拓展对接的使用方法

1.柔性对接

1.1柔性对接的使用场景介绍

1.2柔性对接的优势

1.3蛋白-配体的柔性对接

重点：柔性残基的设置方法

1.4相关结果的分析

以周期蛋白依赖性激酶

2（CDK2）与配体1CK为例

2.共价对接

2.1两种共价对接方法的介绍

2.1.1柔性侧链法

2.1.2两点吸引子法

2.2蛋白和配体的收集以及预处理

2.3共价药物分子与靶蛋白的共价对接

2.4结果的对比

以目前火热的新冠共价药物为例。

3.蛋白-水合对接

3.1水合作用在蛋白-配体相互作用中的意义及方法介绍

3.2蛋白和配体的收集以及预处理

3.3对接相关参数的准备

重点：水分子的加入和处理

3.4蛋白-水分子-配体对接

3.5结果分析

以乙酰胆碱结合蛋白

(AChBP)与尼古丁复合物为例

第五天：分子动力学模拟（linux与gromacs使用安装）

1. linux系统的介绍和简单使用

1.1 linux常用命令行

1.2 linux上的常用程序安装

1.3体验：如何在linux上进行虚拟筛选

2.分子动力学的理论介绍

2.1分子动力学模拟的原理

2.2分子动力学模拟的方法及相关程序

2.3相关力场的介绍

3.gromacs使用及介绍

重点：主要命令及参数的介绍

4.origin介绍及使用

第六天：溶剂化分子动力学模拟的执行

1.一般的溶剂化蛋白的处理流程

2.蛋白晶体的准备

3.结构的能量最小化

4.对体系的预平衡

5.无限制的分子动力学模拟

6.分子动力学结果展示与解读

以水中的溶菌酶为例

第七天：蛋白-配体分子动力学模拟的执行

1.蛋白-配体在分子动力学模拟的处理流程

2.蛋白晶体的准备

3.蛋白-配体模拟初始构象的准备

4.配体分子力场拓扑文件的准备

4.1高斯的简要介绍

4.2 ambertool的简要介绍

4.3生成小分子的力场参数文件

5.对复合物体系温度和压力分别限制的预平衡

6.无限制的分子动力学模拟

7.分子动力学结果展示与解读

8.轨迹后处理及分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

案例实操图片：

专题三

深度学习基因组学

深度学习基因组学：是一门涉及多个领域的交叉学科，其主要目标是利用深度学习技术来分析基因组数据，为生物医学研究提供有价值的信息和洞察。所涉及的领域主要有基因表达预测、基因变异检测、疾病预测与诊断、药物发现与设计、进化与系统发生学研究、基因组序列组装与注释、精准医疗与个性化治疗等方面。

基因序列分析：基因序列分析是基因组学的基础，它涉及到将DNA序列转化为有意义的信息。深度学习在这个过程中扮演了重要角色，可以帮助研究人员对序列进行比对、基因识别以及序列分析等。深度学习模型可以自动学习和识别基因序列中的模式，从而更准确、高效地分析基因序列数据。

基因表达预测：基因表达预测是预测基因在特定条件下的表达水平。深度学习可以通过分析基因表达谱数据，预测基因的表达量、转录因子等。此外，深度学习还可以预测细胞状态、疾病状态等，为进一步研究基因功能和疾病机制提供有力支持。

精准医疗：精准医疗是一种根据个体的基因组、表型和环境因素等信息，为其提供个性化医疗方案的医疗模式。深度学习可以帮助研究人员分析海量的基因组和临床数据，以发现疾病与基因组之间的关联，从而为精准医疗提供更精确的依据。此外，深度学习还可以帮助医生根据患者的基因组信息为其制定更合适的诊疗方案。

药物发现：药物发现是一个漫长而复杂的过程，涉及到靶点发现、化合物筛选等多个步骤。深度学习可以通过分析大量的生物数据，帮助研究人员寻找潜在的药物靶点，并预测化合物的活性。此外，深度学习还可以优化药物设计和制造过程，以降低成本和提高效率。

近年来发过哪些顶刊以及方向：

Nature Reviews Genetics｜深度学习-基因组学计算建模新技术

Mamoon Rashid｜深度学习基因组学在测序数据中的应用

Science Advances|利用深度学习发现癌症中的新基因突变

Cancer Cell | 基于多模态深度学习的泛癌组织学-基因组学整合分析

Nature Reviews Cancer｜癌症蛋白基因组学:当前影响和未来展望

目前深度学习基因组学受众人体众多，列如基因组学，生物信息学，生命科学，小麦遗传育种，临床药理学，中药药理学，口腔修复，肿瘤免疫，整形外科，脊椎畸形，中药新药开发，分子流行病，心血管疾病，皮肤病等众多科研人员

讲师介绍

李老师来自北京大学生命科学交叉学科专业，擅长深度学习和基因组交叉学科研究。第一作者在线发表Nature等期刊20余篇，担任BMC bioinformatics， plos one等多个杂志的审稿人

课表内容

NO.3

深度学习基因组学（内容可向下滑动）

内容可向下滑动

第一章深度学习基因组学: 从深度学习到基因组学（基础知识部分）

理论讲解部分：

1. 有监督学习的神经网络算法

1.1 全连接深度神经网络DNN在基因组学中的应用：讲解DNN的一些种类和用处，比如DNN可以用于预测基因表达量、识别基因变异与疾病之间的关系等。

1.2 卷积神经网络CNN在基因组学中的应用：讲解CNN如何被广泛应用于基因序列分析，如怎么去识别DNA序列中的调控元件和基因剪接位点。

1.3 循环神经网络RNN在基因组学中的应用：讲解RNN怎么适用于处理序列数据，用于基因组序列的注释、预测基因结构等。

1.4 神经网络可解释性：介绍神经网络模型的内部工作机制和如何解释其预测结果，

2. 无监督的神经网络算法介绍和应用

2.1 自动编码器在基因组学中的应用：讲解自动编码器可用于基因数据的降维、去噪和特征提取，有助于揭示基因间潜在的关系。

2.2 高维数据的降维和聚类：介绍如何使用无监督学习方法处理和分析高维基因组数据，包括降维技术和聚类算法。

3. 常用的Linux命令

3.1 Vim编辑器：介绍如何使用Vim编辑器进行文本编辑，包括基础命令和高级特性。

3.2 基因组数据文件管理, 修改文件权限：讲解如何在Linux环境下管理基因组数据文件，包括文件的查看、复制、移动和权限修改。

3.3 查看探索基因组区域：介绍如何使用命令行工具查看和探索特定的基因组区域。

4. Python语言基础

4.1 Python包安装和环境搭建：介绍如何安装Python和管理Python环境，包括使用pip和conda等工具。

4.2 常见的数据结构和数据类型：讲解Python中常用的数据结构（如列表、字典、集合）和数据类型（如字符串、整型、浮点型）。

5. 测序技术的特点和介绍

5.1 一代测序技术的介绍：介绍一代测序技术的原理、特点和应用。

5.2 二代测序技术的介绍：介绍二代测序技术如何实现高通量测序，及其在基因组学研究中的应用。

5.3 单细胞测序数据的介绍：讲解单细胞测序技术的原理和它在基因组学研究中的重要性。

实践操作部分：

6. 实操：安装biopython，并使用biopython对序列进行一些基础操作

6.1 安装biopython：介绍如何在不同操作系统中安装biopython库。

6.2 使用biopython进行序列分析：通过实例演示如何使用biopython进行基因序列的读取、写入、分析和操作。

第二章: 从深度学习到基因组学（进阶部分）

理论讲解部分：

1. 深度神经网络的实现

1.1 卷积神经网络的实现：介绍卷积神经网络（CNN）的基本结构和工作原理，以及如何在常见的深度学习框架中实现它。

1.2 多层感知机的实现：讲解多层感知机（MLP）的结构，包括输入层、隐藏层和输出层的设置，以及激活函数的选择。

1.3 自编码器的实现：介绍自编码器的结构和应用，包括编码器和解码器的设计，以及自编码器在数据压缩和特征学习中的应用。

2. 传统机器学习的实现

2.1 随机森林的实现：介绍随机森林算法的基本原理，包括如何构建决策树和如何通过集成多个决策树提升模型性能。

2.2 支持向量机的实现：解释支持向量机（SVM）的工作原理，包括核技巧的应用和模型参数的选择。

2.3 k-近邻的实现：讲解k-近邻（k-NN）算法的基本概念，包括距离度量、邻居选择和分类决策规则。

2.4 传统机器学习的理论介绍：提供对传统机器学习算法的整体概览，包括监督学习和无监督学习的区别、模型评估方法等。

3. 常用基因组学软件的实操

3.1 序列比对软件BLAST的安装：指导如何在不同操作系统中安装BLAST软件。

3.2 序列比对软件BLAST的实操：通过示例数据演示如何使用BLAST进行序列比对。

3.3 序列比对软件BLAST的结果解析：讲解如何解读BLAST比对结果，包括比对得分和序列相似性的评估。

4. 常用基因组数据库下载和使用

4.1 NCBI各个基因组数据的下载和访问：介绍如何从NCBI数据库下载基因组数据。

4.2 使用编程的方式访问基因组数据库：演示如何使用Python等编程语言访问和查询基因组数据库。

4.3 使用编程的方式下载基因组数据：讲解如何自动化下载基因组数据，包括使用API和脚本。

5. 结合基因组数据进行序列分类（原创性高）

5.1 序列的编码：介绍如何将基因序列数据编码为数值形式，使其适用于机器学习模型。

5.2 序列的输入神经网络：讲解如何将编码后的序列数据作为输入提供给神经网络模型。

5.3 模型的训练和预测：指导如何训练神经网络模型并进行序列分类预测，包括模型调优和评估。

实践操作部分：

6. 实践操作：针对上述理论知识，设计相关的实验和操作练习，包括但不限于以下内容：

6.1 使用TensorFlow或PyTorch等深度学习框架实现简单的CNN和MLP模型。

6.2 在Python环境中使用scikit-learn库实现随机森林、SVM和k-NN算法。

6.3 完成BLAST软件的安装和使用，通过实际案例练习序列比对和结果解析。

6.4 使用Python编写脚本，实现从NCBI数据库自动下载和查询基因组数据的功能。

6.5 开发一个简单的基因序列分类项目，从序列编码到模型训练和预测的完整过程。

第三章: 从深度学习到基因组学（宏基因组部分）

理论讲解部分：

1. 组学的介绍

1.1 宏基因、16S、宏病毒等测序手段的介绍：介绍不同测序技术在组学研究中的应用，包括宏基因组、16S rRNA基因测序和宏病毒组测序等技术的原理和特点。

1.2 宏基因组从头拼接：讲解宏基因组从头拼接的基本概念，包括从头拼接的过程、常用的拼接软件和拼接结果的评估方法。

1.3 宏基因组的质控和去宿主：介绍在宏基因组研究中如何进行数据质量控制，以及如何去除宿主基因的干扰，包括常用的质控工具和去宿主策略。

2. 组学分析软件详解

2.1 R和Rstudio软件的安装：介绍如何在不同操作系统上安装R语言和RStudio环境，以便进行统计分析和数据可视化。

2.2 Origin安装和绘图（箱线图等）：讲解如何安装Origin软件，并使用其进行科研绘图，如箱线图、散点图等。

2.3 Python科研绘图注意事项：介绍在使用Python进行科研绘图时的注意事项，包括图形美化、数据表示和图形导出等。

3. 组学文章精选荟萃串讲：精选组学领域的代表性研究文章，对其研究内容、方法和结论进行详细解读，以帮助理解组学研究的最新进展和应用。

实践操作部分：

4. 实践操作

4.1 宏基因组数据分析实战：通过实际案例，练习从头拼接、质控和去宿主等宏基因组分析流程，包括使用相关软件和解析分析结果。

4.2 R语言和RStudio应用实践：完成R语言的基础语法学习，通过RStudio进行数据分析和绘图的实战训练，如如何利用ggplot2包绘制箱线图。

4.3 Origin绘图实战训练：通过实际数据，学习使用Origin软件进行科研绘图，包括图形的基本设置、美化和导出。

4.4 Python科研绘图实践：利用Python进行科研绘图的实践操作，包括使用matplotlib和seaborn库进行数据可视化，以及绘图过程中的优化技巧。

5. 文献阅读与讨论

5.1 讲解文献：文献阅读，选取组学领域的高影响力文章，进行深入讨论和分析。

5.2 文献阅读技巧分享：分享科研文献阅读和笔记整理的技巧，提高文献阅读的效率和深度。

5.3 研究方法和技术解析：对选定文章中的研究方法和技术进行详解，帮助理解其原理和应用场景。

第四章: 从深度学习到基因组学（数理统计部分）

理论讲解部分：

1. 高维数据降维和聚类

1.1 k-means，PCA等聚类和降维技术的介绍：介绍k-means聚类算法和主成分分析（PCA）降维技术的基本原理及应用场景。

1.3 高斯混合模型等相关统计知识的详解：详细解释高斯混合模型的原理和在数据聚类中的应用。

1.4 维度灾难：讨论高维数据所带来的挑战，包括维度灾难的概念及其对数据分析的影响。

1.5 t-SNE：介绍t-SNE（t-Distributed Stochastic Neighbor Embedding）技术的原理和在高维数据可视化中的应用。

2. 微生物群落相关性

2.1 网络分析概述之网络基础简介：介绍网络分析的基本概念，包括节点、边以及网络的基本性质。

2.2 网络拓扑结构-网络图的凝聚性特征：探讨网络图的结构特征，如凝聚性、中心性等，及其生物学意义。

2.3 CoNet的关联网络推断过程演示：介绍CoNet工具在推断微生物群落关联网络中的应用。

2.4 SparCc的微生物网络构建示例：详细说明SparCc如何被用于构建微生物关联网络。

2.5 SPIEC-EASI的微生物网络构建：解释SPIEC-EASI方法在微生物网络构建中的原理和步骤。

3. Motif相关荟萃介绍

3.1 手把手使用CNN实现序列中motif鉴定实现：介绍如何使用卷积神经网络（CNN）识别生物序列中的motif。

3.2 手把手使用CNN实现序列中m6A修饰鉴定实现：解释如何应用CNN在生物序列中识别m6A修饰的方法。

3.3 其他相关网络在序列中motif鉴定的实现：讨论除CNN外的其他深度学习模型在序列motif鉴定中的应用。

实践操作部分：

4. 高维数据降维和聚类的实操

4.1 实现k-means聚类和PCA降维：通过Python或R语言编写代码实现k-means聚类和PCA降维，并通过实际数据集练习这些技术。

4.2 使用t-SNE进行数据可视化：练习如何使用t-SNE技术对高维数据进行可视化表示。

5. 微生物群落相关性的网络分析实操

5.1 使用R包构建微生物关联网络：通过R语言的SpiecEasi包实践SparCc网络的构建。

5.2 网络分析软件的应用：练习使用CoNet、SPIEC-EASI等工具进行微生物群落关联网络的构建和分析。

6. Motif鉴定的实操练习

6.1 使用CNN识别生物序列中的motif：通过编程实践学习如何使用卷积神经网络模型识别序列中的motif。

6.2 实现序列中m6A修饰的鉴定：练习如何使用深度学习方法，特别是CNN，来识别和预测生物序列中的m6A修饰。

7. 该章节相关文献串讲

7.1 文献讨论会：选择与章节内容相关的重要文献，深入分析文献的方法、结果和结论。

7.2 文献阅读和总结：阅读并总结章节相关的科研文章，以加深对实际应用的理解。

第五章: 从深度学习到基因组学（前沿领域及手把手带你进行SCI论文选题写作投稿）

理论讲解部分：

1. 三维基因组学

1.1 三维基因组学研究进展：介绍三维基因组学的基本概念及其研究的历史和最新进展。

1.2 Hi-C和ChIA-PET等技术介绍：详细讲解Hi-C和ChIA-PET技术的原理、特点及其在三维基因组学中的应用。

1.3 三维基因组学及在疾病中的应用：探讨三维基因组学如何帮助理解疾病的发生发展机制。

2. 三代测序

2.1 三代测序技术的原理与特点：介绍三代测序技术的基本原理，包括其与前两代技术的不同之处及优势。

2.2 Basecalling在三代测序中的作用：讲解Basecalling的概念及其在三代测序数据处理中的重要性。

2.3 三代测序在基因组学中的应用：讲述三代测序技术如何被应用于基因组学的各个领域。

3. 论文写作与投稿

3.1 论文的选题：讨论如何根据当前科研趋势和个人研究兴趣选择合适的论文题目。

3.2 论文的写作技巧：介绍科学论文写作的基本原则和技巧，包括如何清晰地表达研究思想。

3.3 论文的规范格式：解释科研论文的标准结构和格式，以及如何正确引用文献。

3.4 如何选生物信息学投稿杂志：分享如何根据论文的研究领域和质量选择合适的杂志进行投稿。

3.5 Cover Letter的撰写：指导如何撰写Cover Letter以提高论文被接受的可能性。

3.6 学术规范和道德

实践操作部分：

4. 三代测序数据分析实操

4.1 三代测序数据的预处理：介绍如何对三代测序数据进行质量控制和数据清洗。

4.2 Basecalling技术应用：介绍在三代测序数据处理中如何进行Basecalling，及其使用的软件和工具。

4.3 基因组组装与注释：讲解使用三代测序数据进行基因组组装和注释的方法和工具。

5. 论文写作与投稿实操

5.1 论文写作工具和软件的使用：介绍科研论文写作中常用的软件工具，例如文献管理软件和写作软件。

5.2 实践论文写作：实践如何撰写科学论文，包括结构安排、语言表达及图表制作等。

案例实操图片：

专题四

机器学习单细胞与转录组

转录组学和表观组学是现代生命科学领域中的两个重要研究领域，它们的发展和应用对于理解基因表达调控、细胞发育、疾病机制等具有重要意义。随着高通量测序技术的迅速发展，我们能够全面深入地研究基因组范围内的转录活动和表观修饰，从而揭示基因调控网络的复杂性和细胞状态的变化。转录组学涉及对细胞中所有转录RNA的整体表达谱进行分析和解释，从而了解不同基因的表达水平以及转录的调控机制。转录组学研究的应用广泛，涵盖了从发育生物学、肿瘤学到药物研发等多个领域。表观组学则关注细胞内染色质的修饰状态，如DNA甲基化和组蛋白修饰等，这些修饰能够直接或间接地影响基因表达。通过表观组学的研究，我们能够

解这些修饰在细胞发育、环境适应和疾病发生中的功能和机制。

通过掌握转录组学和表观组学的分析方法和工具，研究人员能够更深入地理解基因调控的机制，发现新的生物学洞察，探索疾病的发生和进展机制，并为精准医学和药物研发提供理论基础和实践指导。这门课程旨在为学员提供必要的知识和技能，使他们能够应对当今生命科学中转录组学和表观组学的挑战，并在相关领域的研究和应用中取得突破性的进展

近年来发过哪些顶刊以及方向：

Nature Methods |使用合成无修饰RNA文库对表观转录组图谱进行系统校准

Nature Biotechnology | DisP-seq揭示了DNA相关无序蛋白的全基因组功能组织

Chest|结合表观遗传和转录生物标志物与基因-基因相互作用和主效应的早期NSCLC预后评分的独立验证

Nature Communications|化学诱导的相变和染色质的整体构象重组

Molecular Plant|大豆品种ZH13的T2T基因组组装及其表观遗传景观

Nat Rev Genet|使用单细胞表观基因组学鉴定顺式调节元件的特征

课程旨在为学员提供转录组学和表观组学的综合培训，以及在Linux和R环境中进行数据分析的技能。通过本课程，学员将学习如何处理和分析转录组和表观组数据，并深入了解这两个领域的关键概念和最新发展。课程内容包括Linux操作系统的基础知识和常用命令行技巧，R编程语言的应用，转录组数据的预处理和差异表达分析，表观组数据的分析方法，以及综合应用和实际项目实践

讲师介绍

主讲老师来自荷兰高校陈老师授课。在国内外学术刊物发表论文数篇，包括Nature Communication, Cell Regeneration等知名期刊，研究方向主要为染色质三维结构，生物信息学，发育生物学和遗传学等。利用多组学数据，通过深度学习算法进行数据分析和挖掘，包括ChIP-seq，ATAC-seq，RNA-seq，CNV等，解决并回答领域内多个基础的生物学机制。

课表内容

NO.4

机器学习单细胞转录组与表观组（内容可向下滑动）

内容可向下滑动

第一天

理论部分

高通量测序原理

高通量测序基础

测序方法及数据

二代测序数据分析流程

实操内容

R语言基础

R（4.1.3）和Rstudio的安装

R包安装和环境搭建

数据结构和数据类型

R语言基本函数

数据下载

数据读入与输出

第二天

理论部分

多组学基础

常用生物组学实验与分析方法

常用组学数据库介绍

批量处理组学数据

生物功能分析

基于转录组学的差异基因筛选，疾病预测

组学数据可视化

实操内容

创建Seurat对象

数据质控

测序深度差异及标准化

单细胞数据降维

批次效应去除

数据整合

亚群注释

GSVA通路活性分析

单细胞富集分析

第三天

理论部分

介绍转录组学的基本概念和研究流程

RNA-seq数据的预处

基因表达量估计和差异表达分析

实操内容

转录组测序数据质量控制

转录组数据比对

RNA-seq数据原始定量

主成分分析

原始定量结果差异分析

差异结果筛选及可视化

GO和KEGG通路富集分析

GSEA基因集富集分析

第四天

理论部分

机器学习概述

线性模型

决策树

支持向量机

集成学习

模型选择与性能优化

实操内容

决策树算法实现

随机森林算法实现

支持向量机(SVM)算法实现

朴素贝叶斯算法实现

Xgboost算法实现

聚类算法实现

DBSCAN算法实现

层次聚类算法实现

第五天

理论部分

基因功能注释和富集分析

WGCNA（Weighted Gene Co-expression Network Analysis）网络分析

转录因子分析和调控网络构建

转录组数据的可视化方法和工具

转录水平预测蛋白翻译水平

实操内容

单细胞非负矩阵分解（NMF）

细胞通讯分析

细胞发育轨迹分析（monocle）

单细胞调控网络推断SCENIC

示例图片：

专题五

机器学习代谢组学

机器学习代谢组学：是将机器学习技术应用于代谢组学领域的研究。

代谢组学是研究生物体内代谢产物（代谢物）的整体组合及其在生物体内的变化过程，旨在揭示生物体的生理状态、代谢通路和疾病机制等方面的信息，对于生命科学、药学研发和临床诊断等领域具有重要意义

机器学习代谢组学的目标：

熟悉代谢组学和机器学习相关硬件和软件；熟悉代谢组学从样本处理到数据分析的全流程；能复现至少1篇CNS或子刊级别的代谢组学文章图片。

代谢物分类和识别：通过机器学习算法，将复杂的代谢物组合归类并识别，从而了解代谢物的特征和功能。

生物标志物的发现：通过分析代谢组学数据，找到与特定生理状态、疾病或治疗反应相关的生物标志物，以提供疾病的早期诊断和个体化治疗的依据。

代谢通路分析：通过机器学习算法，分析代谢组学数据中的代谢通路，揭示不同代谢通路在生理和病理过程中的重要性，为疾病机制的理解提供线索。

代谢网络建模：通过机器学习算法，构建代谢网络模型，模拟和预测代谢物之间的相互作用和调控关系，从而深入理解生物体内代谢的复杂性。

机器学习代谢组学的研究内容涉及多个学科领域，包括生物信息学、统计学、模式识别和计算机科学等，它为代谢组学研究提供了新的方法和工具，有助于加深对生物体代谢系统的理解，并为个体化医学和疾病治疗提供新的思路和策略

近年来发过哪些顶刊以及方向：

communications biology 代谢组学和机器学习技术揭示了发芽增强了色素大米的多种营养特性

scientific reports 使用机器学习从基于生物流体的代谢组学预测人体健康

nature communications 空间代谢组学揭示糖原是肺纤维化的可操作靶标

nature protocols 系统生物代谢组学数据的认知分析

nature reviews molecular cell biology 使用活性代谢组学鉴定生物活性代谢物

nature reviews drug discovery代谢组学在药物发现和精准医学中的新兴应用

目前机器学习代谢组学受众群体众多，例如肿瘤生物学，移植免疫，细胞培养工艺优化，肠道菌群与消化系统疾病，肿瘤免疫，入侵植物，抗癌药物，内分泌，病害防控，神经系统疾病诊断，动物遗传育种，等众多科研人员

讲师介绍

机器学习代谢组学主讲老师来自985高校神经科学博士，主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用（LC-MS）技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究，以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文10篇。

课表内容

NO.5

机器学习代谢组学（内容可向下滑动）

内容可向下滑动

第一天上午

A1 代谢物及代谢组学的发展与应用

（1）代谢与生理过程；

（2）代谢与疾病；

（3）非靶向与靶向代谢组学；

（4）空间代谢组学与质谱成像（MSI）；

（5）代谢组学与药物和生物标志物；

（6）代谢流与机制研究。A2 代谢通路及代谢数据库

（1）几种经典代谢通路简介；

（2）三大常见代谢物库：HMDB 、METLIN 和 KEGG;

（3）代谢组学原始数据库：Metabolomics Workbench 和 Metabolights. A3 参考资料推荐

第一天下午

A4 代谢组学实验流程简介

A5 色谱、质谱硬件与原理解析

（1）色谱分析原理与构造；

（2）色谱仪和色谱柱的选择；

（3）色谱的流动相：梯度洗脱法；

（4）离子源、质量分析器与质量检测器解析；

（5）质谱分析原理及动画演示；

（6）色谱质谱联用技术（LC-MS）；

第二天上午

B1 代谢物样本处理与抽提

（1）各种组织、血液和体液等样本的提取流程与注意事项；

（2）代谢物抽提流程与注意事项；

（3）样本及代谢物的运输与保存问题；B2 LC-MS 数据质控与搜库

（1） LC-MS 实验过程中 QC 和 Blank 样本的设置方法；

（2） LC-MS 上机过程的数据质控监测和分析；

（3）代谢组学上游分析原理——基于 Compound Discoverer 与 Xcms 软件；

（4） Xcms 软件数据转换、提峰、峰对齐与搜库；

第二天下午

B3 R 软件基础

（1） R 和 Rstudio 的安装；

（2） Rstudio 的界面配置；

（3） R 中的基础运算和统计计算；

（4） R 中的包：包，函数与参数的使用；

（5） R 语言语法，数据类型与数据结构；

（6） R 基础画图；

B4 ggplot2

（1） ggplot2 简介

（2） ggplot2 的画图哲学；

（3） ggplot2 的配色系统；

（4） ggplot2 数据挖掘与作图实战；

第三天上午：机器学习

C1 有监督式机器学习在代谢组学数据处理中的应用

（1）人工智能、机器学习、深度学习的关系；

（2）回归算法：从线性回归、Logistic 回归与 Cox 回归讲起；

（3） PLS-DA 算法：PCA 降维后没有差异的数据还有救吗？

（4） VIP score 的意义及选择；

（5）分类算法：决策树，随机森林和贝叶斯网络模型；C2 一组代谢组学数据的分类算法实现的 R 演练

(1) 数据解读；

(2) 演练与操作；

第三天下午

C3 无监督式机器学习在代谢组学数据处理中的应用

（1）大数据处理中的降维；

（2） PCA 分析作图；

（3）三种常见的聚类分析：K-means 、层次分析与 SOM

（4）热图和 hcluster 图的 R 语言实现；

C4 一组代谢组学数据的降维与聚类分析的 R 演练

(1) 数据解析；

(2) 演练与操作；

第四天上午

D1 在线代谢组分析网页 Metaboanalyst 操作

（1）用 R 将数据清洗成网页需要的格式；

（2）独立组、配对组和多组的数据格式问题；

（3） Metaboanalyst 中的上游分析（原始数据峰提取、峰对齐与搜库）

（4） Metaboanalyst 的 pipeline 以及参数设置和注意事项；

（5） Metaboanalyst 的结果查看和导出；

（6） Metaboanalyst 的数据编辑；

（7）全流程演练与操作。

第四天下午

D2 代谢组学数据清洗与 R 语言进阶

（1）代谢组学中的 t 、fold-change 和响应值；

（2）数据清洗流程；

（3） R 语言 tidyverse；

（4）数据预处理：数据过滤与数据标准化（样本的 Normalization 和代谢物的 Scaling）；

（5）代谢组学数据清洗演练；

第五天上午

E1 文献数据分析部分复现（1篇）

（1）文献深度解读；

（2）实操：从原始数据下载到图片复现；

（3）学员实操。

第五天下午

E2 机器学习与代谢组学顶刊解读（3 篇）；

（1） Signal Transduction and Targeted Therapy 一篇有关饥饿对不同脑区代谢组学影响变化的小鼠脑组织代谢图谱类的文献；(数据库型)

（2） Cell 一篇代谢组学孕妇全程血液代谢组学分析得出对孕周和孕产期预测的代谢标志物的文献；(生物标志物型)

（3） Nature 一篇对胰腺癌患者肠道菌群的代谢组学分析找到可以提高化疗效果的代谢物的文献。(机制研究型)

基因表达量

案例实操图片：

专题六

AIDD人工智能药物发现与设计

AIDD人工智能药物发现与设计:是人工智能和机器学习技术使制药领域实现了现代化。目前机器学习和深度学习算法已被应用于多肽合成、虚拟筛选、毒性预测、药物监测和释放、药效团建模、定量构效关系、药物重定位、多药理和生理活性等药物发现过程。可以很好的将传统的面向化学的药物发现与人工智能药物设计相结合。此外，世界各地的系统生物学和化学科学家与计算科学家合作，开发现代ML算法和原理，大大的可以促进药物的发现和开发

AIDD人工智能药物发现与设计课程：让学员了解药物发现的前沿背景，学习人工智能领域的各类常见算法，熟悉工具包的安装与使用，掌握一定的算法编程能力，能够运用计算机方法研究药物相关问题。通过大量的案例讲解和实践操作，具备一定的AIDD模型构建和数据分析能力。

讲师介绍

AIDD授课老师老师，有十余年的计算机算法研究和程序设计经验。研究方向涉及生物信息学，深度学习，药物靶标识别，药物不良反应等。参与了国自然基金2项，主持了省厅级科研项目3项。一作身份发表SCI论文数篇，包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊。

课表内容

NO.6

AIDD人工智能药物发现与设计（内容可向下滑动）

内容可向下滑动

第一天

1.AIDD概述及药物综合数据库介绍

2.人工智能辅助药物设计AIDD概述

3.安装环境

(1)anaconda

(2)vscode

(3)pycharm

(4)虚拟环境

4.第三方库基本使用方法

(1)numpy

(2)pandas

(3)matplotlib

(4)requests

5.多种药物综合数据库的获取方式

(1)KEGG（requests爬虫）

(2)Chebi（libChEBIpy）

(3)PubChem（pubchempy / requests）

(4)ChEMBL（chembl_webresource_client）

(5)BiGG（curl）

(6)PDB（pypdb）

第二天 ML-based AIDD

1.机器学习

(1)机器学习种类：

①监督学习

②无监督学习

③强化学习

(2)典型机器学习方法

①决策树

②支持向量机

③朴素贝叶斯

④神经网络

⑤卷积神经网络

(3)模型的评估与验证

(4)分类评估：准确率、精确率、召回率、F1分数、ROC曲线、AUC计算

(5)回归评估：平均绝对误差、均方差、R2分数、可释方差分数

(6)交叉验证

2.sklearn工具包基本使用

3.rdkit工具包的基本使用

4.化合物编码方式和化合物相似性理论知识

5.项目实战1：基于ADME和Ro5的分子筛选

6.项目实战2：基于化合物相似性的配体筛选

7.项目实战3：基于化合物相似性的分子聚类

8.项目实战4: 基于机器学习的生物活性预测

9.项目实战5：基于机器学习的分子毒性预测

第三天 GNN-based AIDD

1.图神经网络

(1)框架介绍: PyG，DGL，TorchDrug

(2)图神经网络消息传递机制

(3)图神经网络数据集设计

(4)图神经网络节点预测、图预测任务和边预测任务实战

2.论文精讲：DeepTox: Toxicity Prediction using Deep Learning

3.项目实战1：基于图神经网络的分子毒性预测

(1)SMILES分子数据集构建PyG图数据集

(2)基于GNN进行分子毒性预测

4.项目实战2：基于图神经网络的蛋白质-配体相互作用预测

(1)蛋白质分子图形化，构建PyG图数据集

(2)基于GIN进行网络搭建及相互作用预测

第四天 NLP-based AIDD

1.自然语言处理

(1)Encoder-Decoder模型

(2)循环神经网络 RNN

(3)Seq2seq

(4)Attention

(5)Transformer

2.项目实战1：基于自然语言的分子毒性预测

(1)SMILES分子数据集词向量表示方法

(2)基于NLP模型进行分子毒性预测

3.项目实战2：基于Transformer的有机化学反应产量预测（Prediction of chemical reaction yields using deep learning）

4.论文精读及代码讲解：《Mapping the space of chemical reactions using attention-based neural networks》

第五天 分子生成与药物设计

1.分子生成模型

(1)循环神经网络RNN

(2)变分自动编码器VAE

(3)生成对抗网络GAN

(4)强化学习RL

2.项目实战1: 基于图数据的小分子化合物生成模型《A Graph to Graphs Framework for Retrosynthesis Prediction》

3.项目实战2: 基于NLP的抗体生成模型《Generative language modeling for antibody design》

授课时间及地点

深度学习蛋白质设计

2024.08.17-2024.08.18（09：00-11：30--13：30-17：00）

2024.08.24-2024.08.25（09：00-11：30--13：30-17：00）

2024.08.28-2024.08.29（09：00-11：30--13：30-17：00）

CADD计算机辅助药物设计

2024.08.10-2024.08.11（09：00-11：30--13：30-17：00）

2024.08.13-2024.08.16（19：00-22：00）

2024.20-2024.08.23 （19：00-22：00）

2024.08.26-2024.08.27（19：00-22：00）

深度学习基因组学

2024.08.10-2024.08.11（09：00-11：30--13：30-17：00）

2024.08.13-2024.08.14（19：00-22：00）

2024.08.17（09：00-11：30--13：30-17：00）

2024.08.24（09：00-11：30--13：30-17：00）

机器学习单细胞转录组与表观组

2024.08.17-2024.08.18（09：00-11：30--13：30-17：00）

2024.08.20-2024.08.21 （19：00-22：00）

2024.08.24-2024.08.25（09：00-11：30--13：30-17：00）

机器学习代谢组学

2024.08.17-2024.08.18（09：00-11：30--13：30-17：00）

2024.08.20-2024.08.21 （19：00-22：00）

2024.08.24-2024.08.25（09：00-11：30--13：30-17：00）

AIDD智能药物发现与设计

2024.08.17-2024.08.18（09：00-11：30--13：30-17：00）

2024.08.20-2024.08.21 （19：00-22：00）

2024.08.24-2024.08.25（09：00-11：30--13：30-17：00）

腾讯会议线上直播

报名费用

培训费用及福利

课程报名费用：

深度学习蛋白质设计：

公费价：每人每班￥6880元（含报名费、培训费、资料费、提供课后全程回放资料）

自费价：每人每班￥6480元（含报名费、培训费、资料费、提供课后全程回放资料）

CADD计算机辅助药物设计、深度学习基因组学、机器学习单细胞、机器学习代谢组学：AIDD人工智能药物发现与设计

公费价：每人每班￥5880元（含报名费、培训费、资料费、提供课后全程回放资料）

自费价：每人每班￥5480元（含报名费、培训费、资料费、提供课后全程回放资料）

重磅优惠:

报二送一（同时报名两个班免费赠送一个学习名额赠送班任选）

报四送二（同时报名四个班免费赠送两个学习名额赠送班任选）

优惠1：

两班同报：10880元（原价18640）

三班同报：14880元（原价23620）

五班同报：24880元（可免费学习一整年本单位举办的任意课程）

可免费学习两年特惠：28880元（可免费学习两整年本单位举办的任意课程）

优惠2：提前报名缴费可享受300元优惠（仅限十五名）

报名学习课程可赠送往期课程回放（报多少赠多少）

（可点击跳转详情链接）：

回放一：本课程为视频课！机器学习生物医学培训！

回访二：本课程为视频课！单细胞空间转录组培训！

回放三：本课程为视频课！比较基因组学培训！

回放四：本课程为视频课！机器学习蛋白质组学培训

回放五：本课程为视频课！机器学习微生物组学培训

回放六：本课程为视频课！蛋白质晶体结构解析培训

回放七：本课程为视频课！CRISPR-Cas9基因编辑培训

（蓝色字体可以点击查看均为培训视频课）

课程特色

1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿

2、学习模式--理论知识与上机操作相结合，让零基础学员快速熟练掌握

3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答

福利及授课方式：

福利：报名缴费成功赠送报名班型全套预习视频，课后学习完毕提供全程录像视频回放，针对与培训课程内容进行长期答疑，微信解疑群永不解散，参加本次课程的学员可免费再参加一次本单位后期组织的相同的专题培训班（任意一期都可以）

授课方式：通过腾讯会议线上直播，理论+实操的授课模式，老师手把手带着操作，从零基础开始讲解，电子PPT和教程开课前一周提前发送给学员，所有培训使用软件都会发送给学员，有什么疑问采取开麦共享屏幕和微信群解疑，学员和老师交流、学员与学员交流，培训完毕后老师长期解疑，培训群不解散，往期培训学员对于培训质量和授课方式一致评价极高！

学员评价

报名咨询方式（请添加下方微信或者电话搜索）

电话：15238680799（微信同号）

引用本次参会学员的一句话：

发现真的是脚踏实地的同时需要偶尔仰望星空非常感谢各位对我们培训的认可！祝愿各位心想事成

往期参会单位

▼

国外院系高校；有来自麻省理工大学、University of Bristol (布里斯托大学)、加州伯克利大学、Osaka University(大版大学）、乔治梅森大学、加州理工大学、曼彻斯特大学、莱斯大学、波士顿大学、德州农工大学、德雷克大学、美国联合大学、普林斯顿大学、斯坦福大学、Imperial College London、KAUSTuniversity、理海大学、TheUniversityofQueensland、澳大利亚昆士兰大学、耶鲁大学、牛津大学、剑桥大学、匹兹堡大学、悉尼大学、多伦多大学、西雅图华盛顿大学、伦敦大学、杜克大学、东京大学、哥伦比亚大学、康奈尔大学、纽约大学、西北大学、布朗大学、华盛顿大学等

国内院系高校；有来自中山大学、清华大学、浙江大学、北京大学第一医院、中国医学科学院北京协和医院、西北民族大学、西南大学、山东大学、启元实验室、中国人民解放军总医院第一医学中心、广东海洋大学、武汉大学、中国农业大学、河南师范大学、南京工业大学、上海交通大学、南方科技大学、南京大学、中国医学科学院基础医学研究所、青海省农林科学院、天津中医药大学第一附属医院、山东大学、黑龙江八一农垦大学、南昌大学第二附属医院、台州市中心医院（台州学院附属医院）、宁波大学附属人民医院、新疆农业大学、北京林业大学、广西医科大学、湖南文理学院、滨州医学院、滨州医学院烟台附属医院、华南师范大学、中国环境科学研究院、云南师范大学、昆明理工大学、湖北医药学院、临港实验室、苏州大学、福州大学、南方医院、南昌大学第二附属医院、深圳市中医院、湖南文理学院、河南科技学院、福建省立医院、中南大学湘雅医院、深圳市中医院、省立同德医院、内蒙古科技大学包头师范学院、乌鲁木齐市疾病预防控制中心、中国林业科学研究院林业研究所、中国农业科学院兰州畜牧与兽药研究所、鲁东大学、河北工程大学、南方医科大学珠江医院、首都医科大学附属北京妇产医院、重庆医科大学附属第二医院、复旦大学上海医学院、陕西中医药大学附属医院、中国医学科学院血液病医院（中国医学科学院血液学研究所）、深圳北京大学、香港科技大学医学中心、天津市肿瘤医院、陆军特色医学中心、空军军医大学第一附属医院、江南大学、中国科学院深圳先进技术研究院等5000余名学员还有很多公司和科研院所以及高校！感谢对我们培训的认可！还有许多因为时间冲突无法参加。这次我们诚挚邀请您来参加！