Py学习  »  机器学习算法

Nat. Biotechnol. | 深度学习准确预测CRISPR-Cas13d gRNA功效

DrugAI • 2 年前 • 232 次点击  

点击蓝字 关注我们


AItellU


编者 | 刹那芳华

制版 | 戈戈

第一作者:Hans-Hermann Wessels

通讯作者:Neville E. Sanjana

第一单位:美国纽约基因中心

DOI:10.1038/s41587-023-01830-8


1

全文一句话速览

本文使用~200,000个针对人类细胞必需基因的RfxCas13d gRNA数据集,开发CNN(TIGER),可根据引导序列和上下文预测CRISPR疗效



2

研究背景

可编程的RNA引导、RNA靶向CRISPR-Cas13系统使细胞RNA的高精度操控发生了革命性的变化。这些系统依赖于Cas13的能力,即根据引导RNA(gRNA)序列和结合RNA序列之间的互补性来区分靶RNA和非靶结合位点。近期研究虽然在理解靶上活性的gRNA设计规则方面取得了进展,但对靶外结合和激活的了解有限,限制了提高靶标特异性和实现基因剂量的可控调控。在哺乳动物系统中,精确的基因表达调控可以通过合成启动子、顺式调控元件或可编程核酸酶零(dCas9)CRISPR系统来实现。作者尝试使用深度学习预测Cas13d在人类细胞中的靶上和靶外活性



3

全文亮点

1.设计测试了~200,000 gRNA数据构建大规模数据集;

2.开发TIGER,可根据引导序列和上下文预测CRISPR疗效;

3.TIGER在预测Cas13d靶上和靶外活性优于现有模型。



4

图文解析

1.RfxCas13d筛选完美匹配和变异的gRNA

为了评估RfxCas13d gRNAs的有效性,设计了一个约有12万个gRNAs的文库,靶向已知必需基因(图1a,b)。该文库包括单核苷酸、双核苷酸或三核苷酸错配的gRNAs,以及具有一个或两个核苷酸插入的gRNAs。在人类细胞中进行适合性筛选,随时间的推移,gRNAs的耗尽反映了Cas13d的活性和必需基因耗尽的程度(图1c)。发现gRNA计数和耗竭在复制筛选和时间点上具有很高的重复性(图1d)。验证了先前开发的靶上模型(RFon)性能,与阴性对照gRNA相比,预测最活跃的gRNA中有很大一部分表现出更强的耗竭(图1e,f)。观察到gRNAs的效力沿着目标转录物序列聚集,表明相邻的gRNA效力相似(图1g)。


图1 联合CRISPR-Cas13筛选检测Cas13d gRNA的有效性


2.插入比替换更影响gRNA功效

对于RFon预测具有高活性的600个PM gRNA,我们设计了108,600个gRNA变体。结果发现,66.1%的PM gRNA具有活性(图2a),且随着碱基替换次数增加,活性逐渐降低。碱基替换通常比插入耐受性更好(图2b),单核苷酸缺失和插入会导致更大的活性损失。计算了所有gRNA变体相对于它们的同源PM gRNA的相对活性。与同源PM gRNA相比,大多数SM变体的活性略有下降(图2c)。


相反,与在gRNA中央区域插入活性损失最大的SM变体相比,单一插入导致更大的活性损失(图2d,e)。证实了以引导核苷酸位置18为中心的SM不耐受种子序列的存在(图2f),还观察到,gRNA种子区内的替换对疗效的影响较小,由于G-U摆动配对,A-G和C-U替换的影响较小。总体而言,这些发现为不同类型的突变对gRNA活性的影响提供了见解,并突出了特定区域和核苷酸相互作用在gRNA功能中的重要性。


图2 Cas13d gRNA错配活性的大规模定位


3.深度学习模型预测gRNA的功效

目前模拟Cas13d有效性的方法主要集中在与其靶点完美匹配的gRNA上,而忽略了靶外效应。虽然非靶向预测模型已经成功地用于Cas9等DNA靶向CRISPR,但缺乏系统的努力来开发体内RNA靶向CRISPR的非靶标模型。作者开发TIGER(通过gRNA设计的靶向抑制基因表达)的深度学习方法(图3a),该方法结合了卷积神经网络(CNN)的结构以及额外的序列上下文和非序列特征来预测gRNA的有效性。当只使用核苷酸序列或所有特征时,首先确定最佳的侧翼靶序列上下文(图3b),发现额外的3个核苷酸的5’靶点环境对于纯序列模型是最佳的。当分析TIGER中每个非序列功能的影响时,发现目标RNA的可访问性产生了最大的性能提升(图3c)。汇总了基因水平CV的预测,以计算预测和观测之间的相关性、AUROC和AUPRC(图3d),以及外部数据集测试泛化性能(图3e),TIGER均表现出更强的预测指标。


图3 预测最佳Cas13d gRNA的深度学习模型


4.Shapley解释特征重要性

为了理解TIGER学到的设计规则,对TIGER组合进行了目标位置水平的交叉验证,并分析了序列和非序列特征的Shapley解释(SHAP)值。关于完美匹配(PM)gRNAs的序列特征,观察到种子区的G和C核苷酸(15-21核苷酸)对gRNA效率有很大贡献,这与之前关于这些核苷酸重要性的发现一致。在检查gRNA替换时,CNN模型正确地了解了种子区单一错配(SMs)的重要性,包括G-U错配碱基配对的具体影响。通过分析非序列特征,发现RNA-RNA杂交,包括靶点可及性和crRNA折叠最小自由能,对模型预测的影响最大,这与作者早期的发现一致(图3c)。


5.TIGER始终预测高活性RNA

大规模测试TIGER组合模型的泛化性,预测了5,166个基因的8个高效gRNA,并在两个不同的细胞系(HEK293FT和HAP1)中进行了增殖筛选(图3f)。观察到针对同一基因的gRNA之间具有高度的一致性(图3g),TIGER组合模型正确地预测了两个细胞系中91%和95%的选定gRNA的活性gRNA(图3h),证明了靶向模型在细胞系和大量未知基因之间的鲁棒性和通用性。还检查了以RfxCas13d为靶点的CRISPR筛选是否可以区分必要和非必要基因。通过使用TIGER组合模型,成功地区分了必需基因和对照基因,在HEK293FT和HAP1细胞中分别获得了0.86和0.95的AUROC值(图3i)。


此外,在RfxCas13d效应蛋白和gRNA表达盒单一整合的受控设置下,研究了侧枝RfxCas13d活性与细胞适合性之间的关系。发现,基因缺失与常见必需基因的基因表达水平相关,但几乎没有证据表明,基因缺失是非必需基因基因表达的函数。还发现,非特异性的侧支活性可能主要影响一小部分高表达的基因,并且HAP1细胞在识别必要基因方面表现出更高的敏感性。


6.脱靶预测和基因敲低滴定

作者强调了对Cas13d脱靶活性和gRNA靶点序列预测模型的缺乏,这些模型主要关注靶上活性。为了解决这个问题,开发了TIGER体系结构,允许适应靶标和gRNA序列之间的不匹配。当预测错配变异gRNA的丰度变化时,他们观察到随着错配的数量和距离的增加,TIGER的预测和观测值之间的相关性降低(图4a)。然而,当考虑到PM gRNA的可变性时,TIGER能够准确地预测不同错配的影响。比较TIGER组合模型(在PM和失配上训练)和TIGER脱靶模型(仅在失配gRNA上训练),组合模型在靶上和脱靶预测中都表现出了优越的性能(图4b,c)。进一步展示了识别具有非靶标活性的错配靶点并设计错配以精确降低gRNA有效性和滴度击倒的能力(图4e)。在预测针对单个目标位置设计的SM gRNA变体的相对gRNA活性方面取得了高度的相关性和准确性,甚至在一个独立的细胞系中跨越数千个基因和目标位置(图4i,j),显示了Tiger的泛化性。


图4 使用带有错配的gRNA训练TIGER可以使用带有SMs的gRNA来预测脱靶活性和转录调节



5

通讯作者介绍

Neville E. Sanjana,美国纽约基因中心学科核心教员、副教授。研究方向:结合基因组工程、高通量筛查、生物信息学、电生理学和成像,剖析人类基因组的内部工作及其在肿瘤进化和神经发育障碍中的功能障碍。



6

编者有话说

在这项研究中,作者用实验生成了一个全面的数据集,以评估Cas13d gRNAs在多个人类细胞系中的靶上和靶外活性。调查了影响gRNA活性的因素,发现gRNA的活性依赖于这些因素,而且错配通常比gRNA或靶RNA序列中的插入对活性影响更小。使用这个数据集,训练了TIGER CNN模型,与现有模型相比,该模型对Cas13d靶向活性表现出了更好的性能。TIGER预测将能够识别和避免不需要的靶外结合位点,从而促进RNA靶向治疗的发展。此外,他们提出,模型可以用于在规模上精确调节目标RNA敲除,从而允许在RNA水平上对基因剂量进行系统研究。强调了RNA水平调制比DNA水平调制的优势,并为数千个靶点上的必要基因的滴定提供了精确的测量,证实了TIGER模型的准确性。


转载须知

【原创文章】AItellU原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为AItellU所有。AItellU保留所有法定权利,违者必究。

投稿、转载及合作邮箱:

zjhuangjunjie@163.com


原文链接:

https://www.nature.com/articles/s41587-023-01830-8

点击下方蓝字阅读原文

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/157651
 
232 次点击