尽管基因组测序技术取得了进展,但大部分罕见遗传病患者在外显子测序后仍未得到明确诊断,提示非编码变异可能在疾病发生中起重要作用。
5月29日,Illumina公司Kyle Kai-How Farh通讯在《Science》发表论文“Predicting expression-altering promoter mutations with deep learning”,开发了PromoterAI,一种深度学习模型,用于预测启动子变异对基因表达的功能影响。通过整合GTEx队列中的多组织基因表达数据,该模型成功鉴定了与异常基因表达相关的罕见启动子变异,并在RNA和蛋白质水平验证了其作用。
【此论文目前刊登于《Science》的FIRST RELEASE中】
PromoterAI基于启动子变异与基因表达异常的大规模数据集进行训练,并通过微调进一步提高其区分低表达和高表达变异的能力。该模型在分类调控变异方面优于现有方法,准确识别了破坏转录因子结合位点的功能变异。低表达变异主要影响ETS、YY1和NRF1等激活因子的结合位点,而高表达变异则倾向于干扰E2F和NFKB等抑制性基序。这一发现与已知转录因子在基因调控中的作用一致,证实了模型捕捉生物学相关特征的能力。
研究还发现,人类群体中启动子变异受到强烈的负向选择。gnomAD队列分析显示,预测改变表达的变异在常见等位基因频率中显著缺失,尤其在功能缺失不耐受(高pLI)基因中更为明显。这种选择压力在转录起始位点(TSS)附近100 bp内最为显著,凸显了核心启动子区的功能重要性。低表达变异的缺失信号更强,提示其更可能具有有害效应,与单倍剂量不足的疾病机制一致。
在独立数据集中的验证进一步证实了PromoterAI的预测能力。GTEx精细定位的启动子eQTLs显示,PromoterAI评分与观测效应大小高度相关,模型能准确区分低表达和高表达变异。大规模并行报告基因实验(MPRA)提供了实验支持,证实预测变异确实改变了报告基因的表达水平。此外,英国生物银行(UKBB)队列分析表明,PromoterAI预测的启动子变异影响了血浆蛋白水平和临床定量性状(如丙氨酸氨基转移酶和HDL胆固醇),将非编码变异与表型效应联系起来。
在临床应用中,PromoterAI成功鉴定了Genomics England(GEL)罕见病队列中与疾病相关的启动子变异。预测导致低表达的变异在疾病相关基因中显著富集,尤其多见于常染色体显性遗传和功能缺失机制的基因。这些变异约占未确诊病例诊断率的6%,与隐蔽剪接变异的贡献相当。GEL患者的RNA-seq数据证实,预测变异确实改变了血液中的基因表达水平,但组织特异性效应可能限制部分变异的检出。MPRA实验进一步验证了这些变异的功能影响,尽管预测与实验结果在基序富集方面存在差异,反映了细胞类型特异性调控解释的复杂性。
研究还分析了ClinVar中已知致病的启动子变异,证实PromoterAI能准确分类与胃癌(APC)、高胆固醇血症(LDLR)和青少年发病的成人型糖尿病(HNF1A)等疾病相关的变异。这些案例展示了启动子变异通过破坏转录因子结合、进而调控关键基因表达的多种机制。
综上所述,PromoterAI为罕见遗传病中致病性非编码变异的鉴定提供了有力工具。该模型整合多组织表达数据、进化保守性和实验验证,为启动子变异的解释建立了可靠框架。尽管目前估计启动子变异仅解释部分未确诊病例,但随着数据集的扩展和组织特异性预测的优化,其作用可能进一步凸显。这项工作强调了非编码基因组注释在精准医学中的重要性,并为未来研究增强子、非翻译区等其他调控元件在罕见病中的作用奠定了基础。
https://doi.org/10.1126/science.ads7373