顺式调控元件(Cis-regulatory elements, CREs)是基因组中与调控基因表达相关的DNA序列。它们通常位于目标基因附近,通过影响RNA聚合酶及其他调控蛋白的结合来控制基因的表达水平【1】。CREs在组织特异性治疗和生物技术应用中具有应用潜力,但天然CREs未经过优化,不一定能完全满足这些需求。随着深度学习和高通量基因检测技术的发展【2】,研究者可以构建并测试大量合成CREs,来探索这些元件的潜力。近日,来自MIT 和Harvard的P. C. Sabeti、S. K. Reilly 和 R. Tewhey研究团队在Nature上发表了题为Machine-guided design of cell-type-targeting cis-regulatory elements的文章,通过机器学习算法设计出具有高度细胞类型特异性的合成CREs,在体内和体外驱动基因表达,并与天然CREs进行性能比较,验证了合成CREs在实际应用中的有效性。研究的起点是构建一个能够预测CRE活性的深度学习模型Malinois,该模型基于高通量平行报告基因测定(massively parallel reporter assay,MPRA)实验数据进行训练,用于直接预测不同细胞类型中CRE序列的活性。通过分析在三个细胞类型(K562、HepG2和SK-N-SH)中776,474条序列的MPRA数据,Malinois模型在测试集上显示了高精度的CREs活性预测能力(Pearson相关系数r为0.88-0.89)。图1:Malinois模型精准预测CRE在表观报告基因中的转录激活在Malinois模型构建完成后,研究者开发了一个名为CODA的设计平台。CODA通过一系列优化算法(如进化算法、模拟退火和梯度优化),从模型预测的最佳序列中筛选出具有特定细胞类型特异性的CRE。这一步的输出了数千个合成CRE序列,那么这些序列是否具有功能呢?通过MPRA测量CREs在不同细胞类型中的活性,研究者观察到合成序列在细胞特异性上优于天然序列。此外,Fast SeqProp方法生成的合成CRE在目标细胞中的表达活性最强,并在非目标细胞中的抑制效果最佳。为了进一步评估合成CREs在复杂生物系统中的表现,研究者在斑马鱼和小鼠模型中部分验证合成CREs。结果显示,合成CRE在斑马鱼的肝脏和神经系统中表现出目标细胞类型的特异性表达,而在小鼠的皮层中也能保持神经元特异性。图3:合成元件的体内验证:结合神经元(NeuN)、小胶质细胞(IBA1)和星形胶质细胞(GFAP)的免疫共染色观察CRE活性(LacZ)在新皮层第6层的表达情况
在体内实验的基础上,研究者进一步分析了在目标细胞和非目标细胞类型中驱动CRE特异性的转录因子基序组合。通过分析特定转录因子(如GATA和HNF家族)的使用模式和贡献分数,研究者确定了合成CREs在目标细胞中激活的具体机制,以及在非目标细胞中的抑制模式。研究者发现合成CRE的特异性与其在目标细胞中激活和抑制的TF组合相关。这些TF组合在天然序列中很少出现,表明Malinois模型已学会了一些基础的调控语法规则。综上所述,
通过深度学习驱动的CODA平台能够高效地生成合成CREs,展现出优于天然CRE的细胞类型特异性。该技术在基因治疗等需要精准组织递送的领域中具有重要应用前景。随着该领域技术的进步,未来有望进一步优化CRE设计,适应更复杂的基因调控需求。https://www.nature.com/articles/s41586-024-08070-z制版人:十一
1. Meuleman, W. et al. Index and biological spectrum of human DNase I hypersensitive sites. Nature 584, 244–251 (2020).2. Tewhey, R. et al. Direct identification of hundreds of expression-modulating variants using a multiplexed reporter assay. Cell 165, 1519–1529 (2016).
BioART战略合作伙伴
(*排名不分先后)
转载须知
【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。