深度学习辅助CRISPR系统设计方法总结

作者 | 董靖鑫

CRISPR系统的关键在于能够识别可以高效切割的目标位点，以及候选gRNA在其他基因组位置几乎或没有切割的目标位点。位点导向突变的靶向效率高度依赖于sgRNA，并且沿着靶标DNA方向微小的位置变动足以以不可预知的方式改变sgRNA的功能。因此，设计有效的sgRNA用于可靠的基因敲除实验至关重要。理想的gRNA应该最大限度地提高靶上活性(诱导效率)，同时最大限度地减少潜在的脱靶效应(诱导特异性)。近年来，涌现出一些辅助gRNA设计的计算工具，这些工具旨在帮助研究人员选择可用的最佳靶点。本文关注范围仅是利用深度学习方法解决该问题的计算工具。

1. DeepCpf1-首次应用深度学习算法进行该任务的尝试

论文题目：Deep learning improves prediction of CRISPR–CPf1 guide RNA activity

发表单位：延世大学，首尔国立大学，汉阳大学等

论文地址：https://www.nature.com/articles/nbt.4061

数据链接：http://www.ncbi.nlm.nih.gov/sra/

代码链接：https://github.com/MyungjaeSong/Paired-Library

Web服务：http://deepcrispr.info/

1. 贡献

提出了两种算法来预测AsCpf1引导RNA的活性：

使用了15000个目标序列的Indel（插入或缺失）效率来训练深度学习框架Seq-deepCpf1；
融合了染色质可及性信息，为这些信息可用的细胞系创建了性能更好的DeepCpf1算法。

2. 动机

作者先前开发一个机器学习（非深度学习）算法预测基于靶向序列位置的AsCpf1的活性，这篇工作是以先前工作为原型结合神经网络提高预测的AsCpf1活性的准确率。

3. 方法

图1.1 Seq-deepCpf1架构

Seq-deepCpf1是一种基于卷积神经网络(CNN)的端到端深度学习框架，通过以下过程预测AsCpf1 indel效率:

将输入序列转换为四维二值矩阵。
输入矩阵经过一组卷积滤波器(共80个滤波器，每个滤波器长度为5nt)提取特征，然后应用ReLU非线性函数。
池化层计算非重叠窗口中值的平均值，提供局部移位的不变性。
经过全连接层进行线性变换，ReLU非线性变换。
多个非线性层使模型能够随着抽象级别的增加学习数据的分层表示。
输出层进行线性回归，预测AsCpf1活性。

4. 结果

图1.2 Seq-deepCpf1与传统机器学习方法比较

结论一：该方法在基于目标序列预测Cpf1活性方面优于传统机器学习方法。

图1.3 考虑染色质可及性的DeepCpf1与其他方法比较

(a) DeepCpf1与其他预测模型在HEK293T细胞(左，n = 55个独立靶点)和HCT116细胞(右，n = 66个独立靶点)中的性能比较。柱状图显示了测量indel效率和预测活动得分之间的斯皮尔曼相关性。为了清晰，结果从统计显著性检验只显示DeepCpf1与Seq-deepCpf1以及DeepCpf1与次优模型。

(b,c) DeepCpf1预测得分与HEK293T细胞(b, n = 55个独立靶点)和HCT116细胞(c, n = 66个独立靶点)内源性靶点indel效率排名的相关性。使用n - 2自由度的学生t检验得到的斯皮尔曼相关(r)和P值(P)显示。

(d)不同模型和数据集之间的Spearman相关系数热图。测试数据集是垂直排列的，而预测模型是水平排列的。括号中显示的是分析的靶点数量，AsCpf1和引导RNA传递的方法，以及使用的细胞系。每个交叉阴影框代表一个模型的斯皮尔曼相关性，该模型根据包括自己的训练数据集的测试数据集进行评估。增强RT，梯度增强回归树。

结论二：考虑染色质可及性显著提高了Cpf1内源性靶点活性的预测。

2. DeepCrispr-将靶上位点预测和脱靶位点预测整合到一个框架中

论文题目：DeepCRISPR: optimized CRISPR guide RNA design by deep learning

发表单位：同济大学，上海第十人民医院，阿斯利康等

论文地址：https://link.springer.com/article/10.1186/s13059-018-1459-4

代码链接：https://github.com/bm2-lab/DeepCRISPR

详细笔记(搬运)：https://qinqianshan.com/biology/rna/deepcrispr/

1. 贡献

将靶上位点和脱靶位点的预测整合到一个深度学习框架中；
自动识别序列和可能影响到sgRNA敲除性能的表观遗传学特征。

2. 动机

预先准确预测sgRNA的靶上敲除效果和脱靶位点优化sgRNA的设计，有助于CRISPR-Cas9在基因编辑上的应用。先前的研究尝试复杂的学习模型进行靶上敲除效果的预测和脱靶预测，但没有方法能彻底解决这些问题。

3. 方法

图2.1 DeepCrispr架构 a 一个sgRNA的编码模式。将每个DNA区域视为一张8通道图像，核苷酸序列由四个通道表示，即A通道、C通道、G通道和T通道，每个表观遗传特征被视为一个通道。b 靶向药效预测的训练细节。c 基于数十亿的全基因组sgRNA序列的无监督深度表征学习。d 脱靶预测的训练细节

DeepCrispr包含以下三个过程：

将完整的20 bp sgRNA序列集(整个人类基因组中均带有NGG PAM)作为模型输入。
每个sgRNA序列用其序列和表观遗传信息编码（图2.1a）。
构建自编码器对这些未标记的sgRNA序列进行预训练（图2.1c），该网络的编码器将作为后续步骤中的预训练网络。
通过具有已知敲除效率的标记数据集微调预训练网络及训练新的卷积网络以预测sgRNA的靶向敲除效果（图2.1b）。
用脱靶数据集微调两个预训练网络，这两个网络分别用来学习sgRNA序列和潜在脱靶位点的表示，并将其拼接起来送入卷积网络中预测脱靶位点（图2.1d）。

4. 结果

图2.2 靶向敲除效果结果对比

图2.3 脱靶位点预测结果对比

深度学习模型（没有无监督的预训练）优于浅层学习模型；
无监督的预训练策略可提高模型性能；
数据扩充进一步提高了模型性能和模型鲁棒性；
DeepCRISPR在sgRNA靶向敲除预测任务中在新细胞类型中泛化性好；
DeepCRISPR避免了人工设计特征，有效地学习了高级特征表示；
DeepCRISPR具有强大的分类和回归模型性能。

3. DeepCas9-可视化对预测sgRNA活性具有重要意义的DNA核苷酸序列的位置

论文题目：Prediction of CRISPR sgRNA Activity Using a Deep Convolutional Neural Network

发表单位：西南医科大学，希望之城国家医疗中心

论文地址：https://pubs.acs.org/doi/full/10.1021/acs.jcim.8b00368?

代码链接：https://github.com/lje00006/DeepCas9

1. 贡献

提出一个基于卷积神经网络的模型DeepCas9，优势如下：在实验中能正确识别高活性sgRNAs；在不同生物体中准确预测sgRNAs的靶向效率。
进一步可视化卷积核，并显示了识别的序列签名和已知的核苷酸偏好的匹配。
展示了DeepCas9在针对人类和小鼠基因组设计下一代基因组规模的CRISPRi和CRISPRa文库中的应用。

2. 动机

受CRISPR-Cpf1利用深度学习方法提高了预测性能的鼓舞，用深度学习方法进行sgRNA活性预测。

3. 方法

图3.1 DeepCas9 架构。(a)左侧采用卷积神经网络自动学习DNA序列特征。(b)卷积运算的过程，4 × 4滤波器以步长1遍历整个输入向量，计算输出。一个过滤器可以被可视化为一个序列motif。这有助于理解过滤器在每个序列位置偏好哪种核苷酸类型

DeepCas9包含以下三个过程：

DNA序列被编码为one-hot向量，对应的核苷酸类型(A, C, G，或T)的位置是1，其他位置为0。
将卷积和池化操作应用于输入向量，并产生每一层的输出作为特征映射。
将全连接层的输出提供给线性回归层，该层为活性分配一个分数。

4. 结果

图3.2 DeepCas9与其他预测方法的性能比较。(a)不同算法与数据集的Spearman相关系数相对图。测试数据集是垂直排列的，而预测算法是水平排列的。对于每个数据集，实验系统以物种或细胞类型表示。每个数据集中的参考线数量显示在括号中。(b) DeepCas9在测试数据集上与不同算法的改进值

DeepCas9的Spearman相关系数平均比sgRNA Designer(规则集I)高74.37%。
sgRNA Designer的预测得分和测量的切割效率之间的相关性很差。
DeepCas9比SSC和sgRNA Scorer分别提高了39.26%和33.87%。
尽管DeepCas9的个体相关系数低于sgRNA Designer(规则集II)，但在7个测试数据集上，结果得到了改善，其平均Spearman相关系数比sgRNA Designer(规则集II)提高了6.96%。

图3.3深度CNN模型揭示的重要卷积核。卷积核的长度是4个核苷酸。在输入序列的每个位置，核对不同的核苷酸类型有偏好。每次移动核时，它都会通过对输入和核位置权重的元素级乘积的和产生一个输出。不利的核苷酸会抑制输出，而有利的核苷酸会增加输出。当子序列匹配核的首选项时，该核将被激活

作者进一步可视化了对预测sgRNA活性具有重要意义的DNA核苷酸序列的位置。位置重要性由在该位置激活的核的比例决定。当核滑过原间隔和侧序列时，它的功能是motif检测器，并在特定的位置匹配它的偏好时被激活。这一过程不同于大多数将特定核苷酸或基序偏好映射到位置的方法，相当于在目标序列中扫描学习到的pwm。作者观察到，大多数核在与PAM相邻的连续区域卷积时被激活，包括位置17、18、19和20，以及PAM的不明确的核苷酸(NGG中的“N”)。这一结果表明，诱变效果与PAM相邻确定位置的核苷酸组成相关。已经有人提出，16 - 20位点，被称为种子区域，通过与Cas9蛋白识别(REC)叶内的精氨酸丰富的桥螺旋(BH)接触来确定靶向特异性引导RNA种子区和目标DNA链之间的碱基配对进一步推动目标DNA双链的逐步不稳定和定向形成的引导-RNA-目标-DNA异双链。因此，目标DNA与种子区crRNA的互补对Cas9的切割活性至关重要。

图3.4 DeepCas9在三个独立生成的CRISPRi/a数据集上的表现

4. DeepHF-为高特异性SpCas9变体设计gRNA活性预测模型

论文题目：Optimized CRISPR guide RNA design for two high-fidelity Cas9 variants by deep learning

发表单位：复旦大学，北京安贞医院

论文地址：https://www.nature.com/articles/s41467-019-12281-8

Web服务：SpCas9 & Base Editor Efficiency Prediction

代码链接：https://github.com/izhangcd/DeepHF

1. 贡献

对人类细胞中两种高度特异的SpCas9变体(eSpCas9(1.1)和SpCas9- hf1)和野生型SpCas9(WT-SpCas9)进行了基因组规模的筛选。
评估了1031个特征对gRNA活性的贡献，并开发了活性预测模型。

2. 动机

设计高特异性的SpCas9变体有助于解决Crispr/Cas系统的脱靶问题。由于缺乏向导gRNA的活性知识，高特异性的SpCas9变体的应用受到限制。现有研究表明，野生型SpCas9的一些高gRNA在高特异性Cas9变体中活性较低。因此作者设计活性预测模型用于上述三种核酸酶。

3. 方法

图4.1 a. 实验设计。针对人基因组每个基因设计4个gRNA，用芯片合成gRNA极其靶序列，连接到慢病毒载体上，转染到表达Cas9的细胞中进行编辑。靶序列用PCR将扩增出来深度测序；b. 预测模型示意图。深度学习与4个生物学特征结合起来预测效果最好

图4.2 DeepHF架构

DeepHF包含以下几个过程：

对原始的gRNA序列进行编码，经过嵌入得到初始表示。
将该表示送入BiLSTM进一步处理，得到新的表示。
上一阶段得到的新的表示与手动设计的生物特征拼接作为全连接层的输入。
通过线性变换得到预测得分。

4. 结果

图4.3 用Tree SHAP分析与gRNA活性相关的特征重要性。a-c通过Tree SHAP分别对WT- SpCas9、eSpCas9(1.1)和SpCas9-hf1识别出Top 20%的重要特征。左边显示了核苷酸及其位置。GG_19表示GG二聚体从位置19开始。Tm表示熔化温度

图4.4 c不同重复实验间indel频率的Pearson相关性 d三种Cas9核酸酶的gRNA活性分布

图4.5 核苷酸组成对gRNA活性的影响。a-c最高25%活性的gRNA和最低25%活性的gRNA的位置依赖的核苷酸组成。条形图显示了每个位置的核苷酸频率的对数分数。下面的数字表示核苷酸在靶标DNA上的位置。d-f每个核苷酸数与gRNA活性的关联。圆圈的大小表示indel效率

图4.6 不同算法对gRNA活性预测的性能。a 数据集原理图和常规算法。b 数据集示意图和深度学习算法。c-e采用Spearman相关系数分别对WT-SpCas9、eSpCas9(1.1)和SpCas9-HF1进行gRNA活性预测的不同算法的性能

数据表明，RNN在gRNA活性预测方面优于CNN等算法，WT-SpCas9、eSpCas9(1.1)和SpCas9-HF1的Spearman相关系数分别为0.8555、0.8491和0.8512(图5c-e;补充数据6 - 8)。CNN的WT- SpCas9、eSpCas9(1.1)和SpCas9- hf1的Spearman相关系数分别为0.8455、0.8313和0.8343，获得了与XGBoost相似的性能。结合重要的生物特征的RNN在活性预测方面优于其他模型。

5. DeepSpCas9-通过构建更大的数据集提升模型性能

论文题目：SpCas9 activity prediction by DeepSpCas9, a deep learning–based model with high generalization performance

发表单位：延世大学，首尔国立大学

论文地址：https://www.science.org/doi/full/10.1126/sciadv.aax9249

Web服务：http://deepcrispr.info/DeepSpCas9/

代码链接：https://github.com/MyungjaeSong/Paired-Library

1. 贡献

在作者先前开发的DeepCpf1的基础上，开发了一种高通量的方法DeepSpCas9在成千上万的目标序列评估SpCas9-induced indel效率，并且可以预测基于目标序列的SpCas9活性。

2. 动机

从数据的角度解决活性预测的问题，构建更大的数据库从而提升深度学习模型的表现。

3. 方法

图5.1 DeepSpCas9 工作流

DeepSpCas9包含以下几个过程：

将包含目标序列和邻近序列的30个碱基对(bp)输入序列转换为四维二值矩阵。
通过四维矩阵移动总共210个滤波器(长度分别为3,5,7 nts，分别为100、70和40个)，确定位置权重矩阵。
从之前的卷积层计算出的局部特征中汇集最大的值，“汇集”出那些有信息的特征。
根据全连接层的加权和和修正线性单元非线性函数，将融合特征进行组合。
输出层进行线性回归，预测每个SpCas9引导RNA的活性分数。

4. 结果

图5.2 评估结果

(A)在不同大小的数据集上训练的DeepSpCas9模型的交叉验证。每个点表示测量到的indel效率与10倍交叉验证预测活性之间的Spearman相关系数(总n = 10相关系数)。

(B)基于先前报告的基于机器学习的方法的SpCas9活性预测模型的交叉验证。每个点表示测量到的indel效率与10倍交叉验证预测活性之间的Spearman相关系数(总n = 10相关系数)。最佳、次最佳和第三最佳模型之间的统计显著性显示(Steiger’s检验)。

(C) DeepSpCas9与其他预测模型的性能比较，使用数据集Endo_Cas9 (n = 124个独立目标站点)和两个发布的数据集(分别为Hart 2015和Xu 2015数据集n = 4207和2060个独立目标站点)作为测试数据集。为了清晰起见，统计测试结果只显示了DeepSpCas9与使用相同大小过滤器的深度学习、DeepSpCas9与最佳传统基于机器学习的模型、以及使用相同大小过滤器的深度学习与最佳传统基于机器学习的模型。

(D) DeepSpCas9和DeepSpCas9-CA的性能比较(染色质可及性)。DeepSpCas9-CA模型是通过使用Endo-1A数据集对DeepSpCas9模型进行微调而开发的。使用Endo-1B数据集评估DeepSpCas9(左)和DeepSpCas9-CA(右)模型的斯皮尔曼相关系数(R)。

(E) 10次迭代微调和评估的结果。每个点代表实测indel效率与预测活性之间的斯皮尔曼相关系数。共进行了10轮(= 2 × 5)的微调及后续测试结果。

图5.3 泛化性能的比较。热图显示了从DeepSpCas9和其他模型的Spearman相关系数，这些系数是水平排列的。垂直放置的测试数据集的名称包括所用细胞系或物种的信息。其他相关参数，如引导RNA表达方法，Cas9活性分析方法，以及分析的位点数量也被显示出来。每个灰框表示针对包括其自身训练数据集的测试数据

图2.3表明DeepSpCas9在使用U6启动子驱动的sgRNAs生成的数据集进行的所有7次测试中，DeepSpCas9的Spearman相关性在之前发表的9个模型中是最高的，并且与第二最佳模型相比，7次测试中的5次观察到了统计显著性。

当对使用体外转录sgRNA生成的三个数据集进行测试时，DeepSpCas9和crisprscan的Spearman相关性最高，这是为预测体外转录sgRNA活性而生成的。Doench 2016(7)和CRISPRscan(10)均未显示U6启动子驱动和体外转录sgRNAs数据集的Spearman相关性最高。这些数据表明，DeepSpCas9的泛化性能是很高的。

总之，表明开发的DeepSpCas9能准确地预测SpCas9，并且具有很好的泛化性能。

6. C-RNNCrispr-联合CNN、RNN建模优势进行靶向活性预测

论文题目：C-RNNCrispr: Prediction of CRISPR/Cas9 sgRNA activity using convolutional and recurrent neural networks

发表单位：中山大学等

论文地址：https://www.sciencedirect.com/science/article/pii/S2001037019303186

代码链接：https://github.com/Peppags/C_RNNCrispr

1. 贡献

作者提出了一种混合卷积神经网络(CNNs)和双向门递归单元网络(BGRU)框架C-RNNCrispr来预测CRISPR/Cas9 sgRNA的靶向活性。
作者引入了一种迁移学习方法，通过使用小型数据集来微调从基准数据集预训练的C-RNNCrispr模型，从而大大提高了预测性能。

2. 动机

CNN擅长通过权重共享策略捕捉序列数据中的局部模式，但在学习序列相关性方面表现不好。RNN在序列建模中具有良好的性能，但不能并行导出特征。CNN-RNN的联合模型可以借助双方建模能力的互补性以提升模型能力，已在其他生物信息学领域（如增强子-启动子相互作用预测，蛋白质结合特异性预测等）得到证明。

3. 方法

图6.1 C-RNNCrispr架构

C-RNNCrispr将CNN-RNN整合到一个模型中，

卷积模块阶段使用一系列一维卷积滤波器扫描序列，以捕获序列模式。
随后的RNN阶段通过考虑序列之间的方向和空间关系来学习复杂的高层关系。
将sgRNA最后全连接层的特征和表观遗传分支的特征结合起来，采用基于元素的乘法算子进行特征合并。
将合并特征的输出输入到线性回归变换中，以预测sgRNA的目标活性。

C-RNNCrispr包含两个分支：

sgRNA分支用于提取sgRNA序列的抽象特征，
表观遗传分支用于揭示隐藏的表观遗传信息知识。

表观遗传分支的结构与sgRNA分支相似，只是没有双向门控递归网络(BGRU是RNN的一种特殊变体)层。添加BGRU层的动机是它易于增强序列特征之间的相关性。将两个并行GRU的输出进行串联，得到包含sgRNA序列前向和后向信息的最终特征表示。

预训练及微调：

除了sgRNA分支和表观遗传分支的最后两层全连接层，以及C-RNNCrispr的最后一层全连接层外，这两个分支的所有层均被冷冻。在借用了预训练的C-RNNCrispr基网络的权重后，作者使用RMSprop优化器对C-RNNCrispr进行微调，以最小化小尺寸细胞系的MSE损失函数。

4. 结果

图6.2 对比C-RNNCrispr及其两种不同架构(即不含CNN和不含BGRU)在基准数据集上5倍交叉验证的性能

图6.3 通过5倍交叉验证，通过对每个细胞系数据的微调，比较C-RNNCrispr从头开始训练和迁移学习的性能

图6.4 基于目标序列组成的5个深度学习模型在4个细胞系数据集5倍交叉验证下的性能比较

C-RNNCrispr在Spearman相关系数方面一直优于其他方法。平均而言，C-RNNCrispr的Spearman相关性值为0.663，比第二好的Seq_deepCpf1高0.026。此外，C-RNNCrispr在AUROC方面的表现也优于除数据集HCT116外的其他模型。综上所述，C-RNNCrispr仅利用序列组成信息就能有效预测sgRNA的活性。

图6.5 对C-RNNCrispr不同位置上不同核苷酸和表观遗传特征的重要性的可视化。颜色代表了位置特异性核苷酸和表观遗传特征对确定有效的sgRNA的贡献。核苷酸和表观遗传特征呈垂直排列，而序列位置呈水平排列

可视化特征得到的结论：

对于sgRNA活性的预测，靠近PAM的位置比PAM远端区域更为关键。这与之前的观察结果一致，即与PAM (PAM-proximal)上游10 - 12bp的完美碱基配对决定了Cas9的特异性，而多个PAM-远端不匹配则可以耐受。
在20位(与PAM相邻1 bp)存在A或T核苷酸会增加indel的比例，作者发现A或T的存在更倾向于在这个位置。
作者还注意到17号位置(即解理位点的第50位)是最重要的。由于切割位点通常位于PAM上游3 bp处，因此C核苷酸的存在在这个位置提供了信息。
均聚物(两个或两个以上相同核苷酸的排列)被发现倾向于17-19位，这与之前的发现一致，即切割位点附近的均聚物的存在增加了缺失的比例。大部分的顶级表观遗传特征是通过卷积输入矩阵的中间区域得到的。
在PAM上游3 bp处发现Dnase的开放染色质信息较好，这与前人研究考虑靶标位点可及性可以提高gRNA活性的预测性能一致。它对DNA酶具有普遍的偏好，而相对避免DNA甲基化(H3K4me3)，以提高sgRNA效率。

7. DeepSpCas9variants-评估SpCas9变体在任何靶标序列上的活性

论文题目：Prediction of the sequence-specific cleavage activity of Cas9 variants

发表单位：延世大学，首尔大学，首尔国立大学等

论文地址：https://www.nature.com/articles/s41587-020-0537-9

代码链接：https://github.com/NahyeKim/DeepSpCas9variants，https://github.com/CRISPRJWCHOI/CRISPR_toolkit/tree/master/Indel_searcher_2

1. 贡献

对13个SpCas9突变体——野生型SpCas9、eSpCas9(1.1)、SpCas9- hf1、HypaCas9、evoCas9、xCas9、Sniper-Cas9和SpCas9- ng以及VQR、VRER、VRQR、VRQR- hf1和QQR1—在数百或数千个靶序列上的活性、特异性和PAM相容性进行了广泛的比较。
开发了基于深度学习的计算模型，可以准确预测这些SpCas9变体在任何靶标序列上的活性。

之前的工作都围绕着如何选择sgRNA展开的，作者关注到有大量优化的SpCas9变体并未发挥其潜质，从另一个角度全面评估了SpCas9变体活性，提供这些SpCas9变体在任何靶标序列上的活性预测工具。

2. 动机

SpCas9由于其较高的活性和相对广泛的PAM兼容性而被广泛用于基因组编辑。然而，SpCas9的应用有时会受到脱靶效应的影响，或者由于缺乏SpCas9 PAM序列(NGG)而变得困难。为了克服这些问题，SpCas9变体已经被开发出来;一些变体可以同时满足增强保真度和改变或扩大PAM兼容性。

由于缺乏对这些SpCas9变体的广泛和系统的比较，在给定的实验中使用哪种SpCas9变体的选择可能会令人困惑。虽然在几个目标序列上已经相互比较了一些变体，但在少数目标序列上的这些比较结果不足以得出一般性的结论。

3. 研究内容

SpCas9变体活性的高通量评估。

SpCas9变体PAM兼容性比较：为给定PAM序列的靶标选择最有效的SpCas9变体。

广泛比较SpCas9变体的靶标活性，并与完全匹配的tRNA-N20 sgRNAs兼容。

SpCas9变体在不匹配的靶标序列上活性的高通量分析。

DeepSpCas9variants:基于深度学习的计算模型，预测SpCas9变种的活性。

4. 方法

图7.1 DeepSpCas9variants架构

DeepSpCas9variants包含以下几个过程：

对靶标序列进行one-hot编码，并送入CNN中提取特征；
对sgRNA进行编码并送入全连接层提取特征；
以元素级的相乘融合二者特征进行回归预测，最终得到预测分数。

5. 结果

图7.2 利用sgRNA-靶序列对的慢病毒库高通量评估SpCas9变体的活性

图7.3 SpCas9变体的PAM兼容性和活性

在这156条PAM序列的靶标中，SpCas9对NGGN PAMs的基因组进行了最高水平的编辑(平均indel效率，49%)，VRQR和VQR变体对NGAG PAMs的基因组进行了最高水平的编辑(平均indel频效率，分别为49%和46%)(图7.3a,b)。

图7.4 当sgRNA向导序列与靶标序列不匹配时，SpCas9变体的特异性

图7.5 开发和评估deepspcas9变体，预测SpCas9变体活性的计算模型

利用训练数据，作者开发了基于深度学习的计算模型，预测具有(G/ G)N19 sgRNAs(在6个高保真变体和SpCas9的情况下，也考虑了tRNA-N20 sgRNAs)的9个变体在给定的具有所有类型PAM的靶标序列上的活性(即每个靶标序列9 + 7 = 16个预测活性)。当使用从未用于训练的测试数据集评估这些计算模型时，Pearson相关系数从0.86到0.94(平均，0.91)，而Spearman相关系数从0.81到0.92(平均，0.90)，表明这些模型具有稳健的性能。

8. CRISPRon-提升数据的质量和规模优化模型的性能

论文题目：Enhancing CRISPR-Cas9 gRNA efficiency prediction by data integration and deep learning

发表单位：青岛华大基因研究院，深圳华大生命科学研究院，奥尔胡斯大学，哥本哈根大学，哈佛医学院等

论文地址：https://www.nature.com/articles/s41467-021-23576-0

Web服务：CRISPR WebServer

代码链接：https://github.com/RTH-tools/crispron/

详细笔记（搬运）：https://zhuanlan.zhihu.com/p/385303316

1. 贡献

报告了10592个SpCas9 gRNA的靶向gRNA活性数据的生成。
在23,902个gRNA上训练了一个深度学习模型CRISPRon。
对控制gRNA效率的特征分析表明，gRNA-DNA结合能ΔGB是预测gRNA靶向活性的主要力量。
提出了一个基于CRISPRon独立软件的交互式gRNA设计web服务器。

2. 动机

先前的模型验证的参数和数据的制备和采集方式上不同，直接影响了它们在gRNA效率预测上的可靠性和拟真度。
适合开发机器学习模型的数据数量仍然稀缺，这主要是由于在实验设计和分割评价方法方面的研究之间的同质性较低。

相较于采用更为高级的机器学习算法，增加基础数据的规模和质量能更显著的提高预测模型的准确性和可靠度。

3. 方法

图8.1 CRISPRon 架构以及在独立测试集上的泛化性能

CRISPRon将自动提取的30 nt DNA输入序列的序列和热力学性质相结合，该序列由原间隔体、PAM和邻近序列组成，用于精确预测gRNAs的活性(图8.1a)。除了序列组成，CRISPRon还嵌入了CRISPRoff中使用的能量模型描述的gRNA-target-DNA结合能ΔGB，它封装了gRNA-DNA杂交自由能，以及DNA-DNA开放和RNA展开自由能惩罚。

4. 结果

图8.2 与gRNA靶向预测相关的重要特征

图8.3 在外部独立数据集中泛化性能

ΔGB被观察到是预测目标上gRNA效率的一个关键特征。
在外部独立测试集上，CRISPRon的预测性能最高(R≈[0.46,0.68])；
在小于1000个gRNA的数据集上进行的额外性能评估也证实CRISPRon是性能最好的模型。