社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Science | 基于深度学习预测影响基因表达的启动子突变

DrugAI • 5 天前 • 7 次点击  

DRUGAI

目前,仅有少数罕见遗传病患者可通过外显子组测序获得确诊,这表明尚有许多致病变异可能隐藏在非编码区域。研究人员提出PromoterAI——一种深度神经网络模型,能够精准识别引起基因表达异常的启动子变异。研究显示,这类启动子变异可在数千名个体的RNA和蛋白水平引发表达异常,并在群体中受到强烈的负向选择。罕见病患者中,与临床相关基因对应的启动子变异显著富集,其功能影响亦通过报告基因实验得到验证。据估计,启动子变异占罕见病相关遗传负担的6%。

基因表达的精确调控对人类健康和发育至关重要,而基因组序列如何编码这些复杂的表达程序仍未完全明确。启动子作为转录起始的关键区域,整合多个非编码序列元件的信息,从而在正确的时间和空间背景中激活或抑制基因。实验证据显示,启动子可以显著增强或抑制基因表达,暗示其变异可能在罕见遗传病和癌症中起重要作用。然而,由于难以区分功能性与中性的非编码变异,临床上对启动子变异的关注有限。迄今为止,仅有少量启动子中的致病非编码变异被明确识别,这限制了个性化基因组测序在临床的全面应用。


深度学习在处理大规模非结构化数据方面展现出强大能力,能够从基因组测序和功能组学数据中提取关键信息,用以预测人类基因变异的临床影响。尽管已有多种模型尝试从序列中直接推断调控机制,但准确预测非编码变异的表达效应仍是一大挑战。


结果

PromoterAI模型预测启动子变异对基因表达的影响

研究人员开发了PromoterAI,一种卷积神经网络模型,利用启动子变异周围约20 kb的序列信息,预测其对表达的影响。模型先通过训练学习组蛋白修饰、DNA可及性、转录因子结合位点以及CAGE转录起始位点数据,并进一步通过罕见变异导致表达异常的案例进行微调,从而在多个验证任务中表现出优越性能。


异常表达变异主要通过扰动转录因子结合位点实现

模型识别出的低表达变异常扰乱ETS、YY1等启动子调控因子结合位点,而高表达变异则倾向于影响E2F等因子。插入这些motif的模拟实验验证了模型预测与实际表达改变一致。模型微调后的表现提升显著,特别是在正确预测调控方向性方面,且变异落在保守区域的倾向更强。


表达相关启动子变异在群体中受到负向选择

在人群测序数据中,PromoterAI预测具有表达影响的启动子变异在常见等位频率中显著缺失,提示这些变异可能具有不利效应并被自然选择所清除。这种选择压力在对表达敏感的基因中更为显著,特别是在TSS附近100 bp内。


PromoterAI预测eQTL、蛋白水平及临床表型

在GTEx中,PromoterAI得分与已精细定位的启动子eQTL效应显著相关,在多个数据集和基准测试中均优于现有模型。在英国生物库的50万人中,PromoterAI得分与蛋白质水平、多个临床表型(如HDL水平、肝酶)呈现一致性,表明其具备广泛的临床应用潜力。


在罕见病患者中发现PromoterAI预测的致病启动子变异

在英国Genomics England项目中,研究人员发现启动子变异在与患者表型相关的基因中显著富集。PromoterAI的预测结果与血液RNA-seq表达数据、MPRA实验均一致。统计分析表明,启动子变异可解释6%的罕见病诊断率,且与剪接相关的非编码变异共同构成了非编码病因的20%左右。


讨论

非编码变异是导致常见疾病的主要遗传因素之一,而其在罕见病中的作用正逐渐被揭示。研究人员提出的PromoterAI通过大规模表达异常数据的微调训练,显著提升了模型对非编码调控变异的识别能力。该模型在不同数据集、任务和生物背景中展现出一致性和高效性。


尽管当前模型尚受限于可用于训练的表达数据量,其预测能力已显示出巨大潜力。未来随着数据量增加,有望进一步识别组织特异性或远离TSS的功能性启动子变异。此外,结合保守性信息、MPRA实验及RNA-seq数据,PromoterAI可进一步拓展至增强子、非编码RNA和UTR区域,助力未确诊罕见病患者的基因诊断与表型解释。


整理 | WJM

参考资料

Kishore Jaganathan et al. ,Predicting expression-altering promoter mutations with deep learning.Science0,eads7373DOI:10.1126/science.ads7373

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182823
 
7 次点击