社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
GIS学习者福音:ArcGIS Pro 3.5中文版(含数据转换和深度学习模块)安装指南+视频教程,...
AI早知道|OpenAI正式发布ChatGPT Agent;Kimi开放平台正式上线Kimi Pla...
OpenAI 史上最惨发布:ChatGPT Agent 遭暴击,国产 AI 轮番「公开处刑」
CGI科技周报(2025第29周)| ChatGPT Agent、自主微创手术机器人、AI预测结构性...
你真的了解ChatGPT?一文回顾过去三年进化历程与 2025 关键战局
机器学习学术速递[7.21]
用Python读写操作Excel数据!
A日报:Kimi开放平台上线Kimi Playground;OpenAI发布ChatGPT Agen...
机器学习学术速递[7.23]
突发!史上最强!OpenAI 发布 ChatGPT 智能体,浏览网站、写代码、做 PPT 样样精通
关注
Py学习
»
机器学习算法
西湖大学马丽佳团队开发全新深度学习模型,精准预测SpCas9/gRNA活性及特异性
生物世界
• 2 年前 • 300 次点击
CRISPR基因编辑技术自2013年被科学家首次证明可以在哺乳动物细胞内实现高效的基因组编辑以来,正在彻底改变生物医学基础研究和临床研究领域。越来越多的研究者已经在包括开发
新型基因编辑工具酶
或者优化
向导RNA
(gRNA)
的设计方面进行了很多尝试,希望可以借此提高CRISPR的性能。
利用合成gRNA-靶序列的高通量文库允许直接在细胞环境下中便捷和高通量地收集gRNA活性数据,由此建立的计算模型来预测gRNA的活性比较可靠。在以往的研究中,约10000至50000条合成的gRNA-靶序列被用于量化gRNA的靶向效率、特异性或修复结果。
然而,人类基因组有610
8
个具有NGG PAM的潜在gRNA,这导致早期研究中采样的gRNA覆盖率仅为0.002%-0.009%。在这个采样范围内,已有的计算工具预测的gRNA活性和用于建模的实测gRNA活性相关性约为0.8
(Spearman相关性)
,还有很大上升空间。并且截至目前,还没有一个从多个维度预测gRNA活性
(如,gRNA切割活性、gRNA脱靶活性、gRNA切割后基因组修复的图谱)
的综合工具。
近日,西湖大学生命科学学院
马丽佳
研究员团队在
Cell Discovery
期刊发表了题为:
Deep sampling of gRNA in the human genome and deep-learning-informed prediction of gRNA activities
的研究论文。
该论文介绍了团队开发的一种基于全新策略构建的深度学习模型,
能有效预测CRISPR多维gRNA性能。
首先,研究人员将74万条gRNA
(740k文库)
及gRNA靶点序列合成在一条oligo上
(每个gRNA靶点序列包括20-nt上游基因组序列、20-nt靶标序列、3-nt PAM序列和20-nt下游基因组序列)
,该文库除了团队设计的gRNA之外,还包含多个已发表的CRISPR KO screening
(通过CRISPR系统构建基因组文库进行高通量基因敲除筛选)
文库,包括Brunello、GecKOv2、Sabatini、TorontoKoV3和YusaKoV1。740k文库占人类基因组中所有具有NGG-PAM的gRNA数量的约0.16%
(远高于以往研究中0.002%~0.009%的覆盖率)
。随后通过慢病毒转导入稳定表达SpCas9的人体细胞系内,对合成的gRNA靶点序列上下游设计引物PCR进行深度测序即可实现高通量地检测gRNA的活性,同时还可评估对应gRNA切割基因组后,基因组的修复图谱
(图1)
。
图1:高通量检测gRNA体内活性策略的流程图
为了开发gRNA活性预测模型,研究人员首先比较了九种机器学习算法,包括七种传统算法和两种基于深度学习的算法,结果发现RNN是在所有测试算法中性能最好,实测的gRNA效率和预测效率之间的Spearman相关系数在0.875到0.911之间。值得注意的是,相比这项研究中使用了74万条gRNA,以往的研究只用了1万至5万条gRNA序列的数据进行深度学习模型构建。
那么,在数据量和模型性能之间,什么数据量是生物学实验投入和模型性能获益之间的最佳值呢?
带着这个疑问,研究团队又将740k文库分为8个子库,分别叠加子文库行深度模型构建,利用十折交叉验证进行评估,最终建立了8组模型,结果表明随着文库大小的增加,8组模型的预测性能Spearman相关系数中位数从0.810逐渐提高到0.898。在包含超过220k个gRNA后,模型性能趋于平稳。本研究给出了gRNA数据规模对提升模型性能的重要参考,对后续类似工作如何设计实验具有重要的指导意义。随着一系列建模参数的测试,研究人员最终确定将63bp的序列
(23bp靶序列和上游、下游各20bp)
作为RNN模型的输入序列,并将其训练得到的深度学习模型命名为“AIdit_ON”
(图2)
。
图2:建立预测gRNA活性的AIdit_ON模型的流程图
为了进一步评估AIdit_ON模型在不同细胞类型中的泛化性能,研究人员基于多个公开可用的内源数据集,比较了AIdit_ON和11个已发表的计算工具,结果显示AIdit_ON模型在所有公共数据集中的表现要优于所有其他模型
(图3)
。同样地,对于本研究产出的不同细胞系内源的gRNA活性数据
(293T n=78;K562 n=75;H1 n=71)
,AIdit_ON模型的表现也优于其他模型
(图3)
。
图3:不同数据集的indel频率和12个模型预测效率之间的Spearman相关系数的热图
此外,K562和Jurkat细胞中740k文库的数据集使研究人员能够进一步检测这两种细胞类型中DSB
(DNA双链断裂)
诱导的基因组修复结果。在仔细分析Jurkat和K562细胞的DSB修复图谱时候,研究人员有了意外的发现。在K562中,超过65%的SpCas9/gRNA诱导的DSBs被修复为缺失类型
(Deletion)
,这与以往研究的大多数细胞类型中发现的现象一致。相反,插入
(Insertion)
在Jurkat细胞中占主导地位
(大于60%)(图4)
。研究人员大胆假设,Jurkat细胞的一种独特特性可能是导致Insertion主导修复结果的原因。经过验证,研究人员证实了他们的猜想,他们找到了一个在Jurkat特异性高表达的基因DNTT,该基因是控制Jurkat中DSB修复的主导基因。敲除Jurkat中的DNTT会改变其修复结果,使其与K562细胞的修复结果更相似。相反,在K562细胞中过表达DNTT时,Insertion成为最主要的DSB修复图谱。这些数据表明,由SpCas9/gRNA介导的DSB诱导的修复结果是DNTT依赖性的。
为构建精准预测DSB修复图谱模型,研究人员首先为每个修复类别训练了一个单独的XGBoost模型,这些模型的输出结合序列特征和微同源特征成为最终模型训练的特征。在K562数据上训练的模型被命名为AIdit_DSB_K562,在Jurkat数据上训练过的模型被称为AIdit_DSB_Jurkat。为了评估模型的泛化性能,研究人员比较了已公开发表的预测模型ForeCasT和Lindel,在所有非Jurkat细胞系的测试数据集中,AIdit_DSB_K562模型的表现优于Lindel和ForeCasT模型。基于从不同系收集的其他公共数据集的结果,包括REP1、CHO、E14TG2A和HAP1,也证明了AIdit_DSB_K562模型的优越性能。AIdit_DSB_Jurkat对非Jurkat数据的预测效力低,但在Jurkat测试数据集中实现了高精准的预测。根据DSB修复的DNTT依赖性,后续研究人员可以用DNTT的表达量来指导模型选择和预测不同细胞类型特异的SpCas9/gRNA DSB修复图谱。这个重要现象的发现,解释了有些情况下模型预测性能无法在不同细胞类型中实现泛化的原因,其实是背后的基本生物学原理决定的。这也提示生物学数据指导下的AI模型,既需要产生足够的、与问题直接相关的数据,也需要考量有生物学意义的参数。
图4:SpCas9诱导的DSB修复类型在Jurkat WT, Jurkat DNTT-KO,K562 WT和K562 DNTT-OE细胞中的分布。
最后,研究人员应用了类似的策略来衡量SpCas9/gRNA在非匹配靶序列上的脱靶活性。研究人员设计了一个包含180万条gRNA脱靶序列的文库
(180k)
,并基于该文库产生的高通量测序数据构建了预测SpCas9/gRNA脱靶活性的机器学习模型,即AIdit_OFF。结果表明,在多个GUIDE-seq测试数据集上相对于应用较广的CFD模型,AIdit_OFF无论特异性还是召回率表现的都更好,且将预测gRNA脱靶位点的精准率平均提高了2.6倍。
为了方便生物医学研究人员更好选择gRNA,本项目搭建了一个嵌入三个高性能模型的公共网站
(https://crispr-aidit.com)
。研究者通过输入基因名称、序列片段或带有序列的FASTA文件,可以获得gRNA的多维预测数据,更精准选择合适的gRNA。
西湖大学博士后
张恒
、科研助理
闫建峰
、博士生
陆志科
为论文共同第一作者。西湖大学生命科学学院
马丽佳
研究员为论文通讯作者。该研究与西湖云谷智药(杭州)基因科技有限公司合作完成。
论文链接
:
https://www.nature.com/articles/s41421-023-00549-9
设置
星标
,不错过精彩推文
开放转载
欢迎转发到朋友圈和微信群
微信加群
为促进前沿研究的传播和交流,我们组建了多个
专业交流群
,长按下方二维码,即可添加小编微信进群,由于申请人数较多,添加微信时请备注:
学校
/
专业
/
姓名
,如果是
PI
/
教授
,还请注明。
点
在看
,传递你的品味
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/155482
300 次点击
登录后回复