社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

李祥春团队Patterns:Reformer深度学习工具推动RNA结合蛋白研究新突破 | CellPress对话科学家

DrugAI • 4 月前 • 96 次点击  


物质科学

Physical science

Reformer是一个基于深度学习的工具,能仅通过RNA序列预测蛋白质与RNA的结合位置和强度。1月10日,天津市肿瘤医院李祥春团队在Cell Press细胞出版社旗下期刊Patterns上发表了一篇题为“A deep learning model for characterizing protein-RNA interactions from sequences at single-base resolution”的研究论文,介绍了Reformer的核心优势,包括无需复杂实验数据、高分辨率结合预测及发现隐藏模式。Reformer在结合预测、基序发现、基序构建与整合及突变效应预测等应用场景中表现出色,为RNA调控机制研究提供新途径,并为疾病治疗提供新思路。

▲长按图片识别二维码阅读原文

文章亮点


  1. 创新模型:提出名为Reformer的深度学习模型,能够从序列数据中精准预测蛋白质与RNA的结合亲和力,并以单碱基分辨率实现高精确度的预测,突破传统方法的局限性。

  2. 性能卓越:模型基于225组eCLIP-seq数据训练和评估,覆盖155种RNA结合蛋白,在预测结合特性和解析结合模式方面展现出极高的准确性。

  3. 揭示调控机制:Reformer深入解析了RNA调控过程中的关键机制,并能够识别出具有重要生物学意义的致病突变,其预测结果在实验中得到有力支持。


文章简介


RNA结合蛋白(RBPs)是基因表达调控中的重要参与者。它们通过与RNA的特定结合来调控许多关键的生物学过程,包括RNA剪接、稳定性、定位、编辑和翻译。当RBPs功能出现异常时,可能引发多种疾病,如癌症、自身免疫病和神经退行性疾病。因此,深入了解RBPs与RNA的结合特性不仅能揭示其调控机制,还能为疾病治疗提供新思路。


传统研究RBP与RNA结合的方法(如eCLIP-seq)依赖实验数据,且难以直接解析序列中关键的调控信息。为此,Reformer应运而生。作为一个基于深度学习的工具,Reformer通过分析RNA序列本身的信息,进而预测蛋白质与RNA的结合位置和结合强度。它不依赖复杂的实验数据,而是利用先进的Transformer模型,将预测分辨率提升到单碱基水平,为RNA调控机制研究开辟了新途径。


Reformer的核心优势


无需依赖复杂实验数据:传统方法通常需要RNA序列及二级结构数据作为输入,而Reformer只需要RNA序列本身即可实现高精度预测,大幅降低了研究成本和时间。


高分辨率的结合预测:Reformer能够在单碱基层面解析蛋白质与RNA的结合强度,超越传统方法的二分类能力。


发现隐藏模式:借助Transformer模型的注意力机制,Reformer能自动发现序列中重要的调控模式,包括结合位点的上下文信息和潜在的关键基序。


图:Reformer模型的设计理念,及其在RNA结合预测、基序分析和突变效应评估中的应用。

应用场景一:高分辨率的结合预测


Reformer的核心能力是预测蛋白质与RNA的结合强度,其输入仅需RNA序列即可完成。通过多层Transformer结构,Reformer可以分析序列中的每个碱基,预测它与蛋白质的结合强度。


在验证过程中,研究人员使用了eCLIP-seq数据对Reformer进行评估。结果显示,Reformer的预测结果在单碱基分辨率上与实验数据高度一致,并优于现有的深度学习模型,如DeepBind和HDRNet。这种高精度预测对于研究蛋白质与RNA的动态调控机制具有重要意义。例如,在研究RNA的剪接调控时,Reformer可以帮助科学家精确定位可能受影响的结合区域,从而更高效地设计后续实验。


应用场景二:基序发现与特征解析


基序(Motif)是RNA序列中重要的模式,通常决定了蛋白质与RNA的结合特性。然而,传统方法受限于数据分辨率和分析手段,无法全面揭示序列中的关键基序。


Reformer通过分析高注意力区域的序列模式,能够识别出已知的经典基序,同时还发现了许多未被传统方法检测到的新基序。这些基序可能位于结合位点附近,也可能出现在远离结合位点的上下文区域,但它们对于RNA调控的功能同样重要。例如,Reformer发现了一些与RNA剪接直接相关的基序,并揭示了这些基序如何与特定RBPs相互作用。科学家可以利用这些信息更好地理解RNA剪接过程的分子机制,为疾病研究提供新线索。


应用场景三:基序构建与整合


在发现关键基序的基础上,Reformer还可以通过对高注意力区域的分析,整合出完整的结合模式。这些模式可以用来解释不同RNA结合蛋白的调控规则。


例如,在某些实验中,Reformer成功重建了经典基序“GCCAA”,并进一步展示了不同RBPs对该基序的结合偏好。这不仅帮助科学家理解RBPs的调控方式,还为设计实验研究RNA调控功能提供了新的工具。


应用场景四:突变效应预测


RNA中的突变可能显著影响蛋白质的结合,从而干扰正常的基因调控过程,甚至导致疾病。Reformer能够通过模拟突变前后的结合强度变化,评估突变对RNA调控的影响。


例如,研究人员利用Reformer分析了与BRCA1和NF1相关的致病突变。这些突变被预测为会显著降低RNA结合蛋白的结合强度,从而破坏正常的调控功能。这一预测得到了实验验证,为筛选疾病相关的关键突变提供了强有力的支持。


此外,Reformer的突变效应预测还可用于优先筛选可能影响RNA功能的罕见突变,帮助科学家更高效地设计实验,验证这些突变是否与疾病相关。


作者专访

CellPress:

请简要概述这项工作的亮点。



Reformer是一个深度学习工具,通过从序列中直接预测蛋白质与RNA的结合亲和力,在单碱基分辨率上提供了更细致的调控洞察。这一模型不仅显著提高了蛋白质-RNA结合特性预测的精确性和通用性,也能够准确识别致病突变并解析其分子机制,同时可发现传统方法难以检测的结合基序,为RNA调控机制的深入研究提供了强大支持。

CellPress:

研究过程中遇到了哪些困难?团队是如何克服并顺利解决的?



我们最大的困难是如何有效学习RNA序列内部的相互作用。传统方法多依赖局部特征,难以捕捉序列中长距离的调控关系。为解决这一问题,我们采用了Transformer模型,其多头注意力机制能够在全局范围内捕捉序列内部的相互关系。这一设计提升了模型对结合位点的识别能力,还使其能够自动发现高关联区域中的调控特征,提高了模型对复杂调控模式的理解。

CellPress:

团队下一步的研究计划是怎样的?



未来我们计划扩展Reformer的应用范围,包括更广泛的RNA结合蛋白以及不同的生物学背景。同时,进一步优化模型以提高其对罕见突变的敏感性,并探索其在临床诊断和治疗开发中的潜力。

作者介绍





李祥春

   教授

李祥春,论文通讯作者,天津市肿瘤医院教授,生物信息平台负责人。从事肿瘤基因组学研究10年,熟练使用前沿深度学习算法,对“基因组学+影像+深度学习”跨学科研究有较好基础;近五年来以第一作者或通讯作者在Lancet Oncology、JAMA Oncology 、Nature Medicine等国际权威杂志上发表论文15篇;先后入选国家级青年人才项目;天津市“131”创新型人才培养工程第一层次人选;天津市高校“青年后备人才支持计划”人选;天津医科大学肿瘤医院高层次创新人才“中青年科研型创新领军人才”;天津市抗癌协会恶性黑色素瘤专业委员会第一届委员会常务委员。




石磊

 教授

石磊,论文共同通讯作者,天津医科大学教授。长期从事基因组稳定性和肿瘤发生发展的表观遗传机制研究,相关工作以通讯作者发表在Molecular Cell、Journal of Clinical Investigation、Genome Biology等杂志。研究成果被Molecular Cell等专评推荐,受邀为Trends in Cell Biology撰写评论文章。获得国家自然科学基金委杰出青年基金等资助。任中国抗癌协会青年理事,中国细胞生物学会染色质分会委员,Cancer Biology & MedicineGenome Instability & Disease杂志编委。




陈可欣

   教授

陈可欣,论文共同通讯作者,天津市肿瘤医院教授,国家教育部人群重大疾病防控重点实验室主任,国家重点研发计划项目首席科学家,国家教育部创新团队发展计划带头人,中国抗癌协会肿瘤流行病学专委会主任委员。长期从事肿瘤分子流行病学、常见恶性肿瘤筛查、人工智能与肿瘤精准诊疗相关研究。以通信/第一作者在Lancet Oncology,JAMA Oncology,Nature Medicine等期刊发表SCI论文100余篇,连续四年入选Elsevier“医学”高被引中国学者。主持科技部重点研发计划项目、国家自然科学基金委重点、国际合作、863专项和科技部新药创制平台项目等国家重大科研项目10余项,获授权专利2项,先后获国家科技进步二等奖和天津市科技进步奖一等奖等。

相关论文信息

论文原文刊载于Cell Press细胞出版社旗下期刊Patterns

点击“阅读原文”或扫描下方二维码查看论文

论文标题:

 A deep learning model for characterizing protein-RNA interactions from sequences at single-base resolution


论文网址:

https://www.sciencedirect.com/science/article/pii/S2666389924003222

DOI:

https://doi.org/10.1016/j.patter.2024.101150


▲长按图片识别二维码阅读原文

Cell Press Multi-Journal Submission(点击查看)的前身Cell Press Community Review模式于2021年推出。对于通过Cell Press Multi-Journal Submission“多刊审稿”模式投稿的作者,我们将提供稿件被多本期刊同时考虑的机会。超过80%通过Cell Press Multi-Journal Submission“多刊审稿”模式投稿的文章获得了至少一个或多个期刊的评审。


CellPress细胞出版社


推荐阅读

浙江大学陈喜群/夏英集Patterns:数据-知识共驱动的工程与管理创新 | Cell Press论文速递

▲长按识别二维码关注细胞科学

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178098
 
96 次点击