社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Science | 突破性进展:深度学习+物理模拟,精准操控蛋白质“形态切换”,未来药物设计新路径

生物探索 • 3 周前 • 78 次点击  

引言

生命,无疑是宇宙中最精密的奇迹。而蛋白质(proteins),正是构成生命大厦的无数微观建筑师。我们通常会将蛋白质想象成一个个静态的、结构精密的分子雕塑。然而,生命的奥秘远不止于此——真正的蛋白质,更像是灵动万变的“变形金刚”!它们能够根据环境信号精确切换构象(conformational states),这种动态能力正是细胞信号传导(cellular signaling)、酶催化(enzyme catalysis)等核心生物功能的基石。

长期以来,研究人员在从头设计(de novo design)具有新颖结构的静态蛋白质方面取得了巨大成功,但如何精确设计并可控地诱导蛋白质发生精细的、域内(intradomain)的构象变化,却一直是生物设计领域的“圣杯”,一个难以逾越的挑战。天然的激酶(kinases)在形成活性位点时的螺旋(helix)旋转,或G蛋白偶联受体(GPCRs)暴露结合界面时的螺旋弯折,都属于这种精密的域内运动。传统的物理模型难以捕捉到构象间微小的能量差异,而“黑箱”式的深度学习模型又往往缺乏对分子机制的深入洞察。这让研究者们在实现真正可编程的蛋白质功能上举步维艰。
5月22日《Science》上的一项突破性研究“Deep learning–guided design of dynamic proteins”,为我们描绘了一个充满希望的新篇章!它巧妙地将深度学习的强大预测能力与原子级分子模拟(molecular simulations)的可解释性融为一体,如同为“黑箱”装上了透明的玻璃,让我们既能看到“变形金刚”的强大,又能理解其内部的精妙齿轮如何运转。这项研究不仅成功地从头设计出能够精确切换两种预设构象(pre-specified conformations)的动态蛋白质,更实现了通过配体(ligand)结合和远端(distal sites)变构突变(allosteric mutations)对其构象平衡(conformational equilibrium)的精细调控。最令人振奋的是,他们首次揭示了这些动态开关背后的原子相互作用网络,并能基于此进行精准的“再编程”!
这不仅仅是蛋白质设计领域的一次技术飞跃,更是为构建未来生物计算、智能药物递送,乃至全新生命系统奠定了坚实的基础。
挑战重重:为何动态蛋白设计如此困难?
首先,早期的蛋白质构象开关(conformational switches)设计工作,大多集中于侧链重排(side-chain rearrangements)或大规模的铰链式结构域运动。在这些设计中,蛋白质内部的大多数原子间相互作用(atomic-level intra-domain interactions)通常保持不变。这就简化了设计问题,因为我们不必担心整个蛋白质骨架(backbone)的复杂重塑。然而,天然调控器中常见的复杂、可控的域内构象变化机制,其原子尺度的相互作用网络(atomic-interaction networks)会发生显著的重组,这对于从头设计而言,至今没有通用的方法能够实现。
其次,传统的基于物理的模型(physics-based models)难以精确模拟这些构象状态之间微小的能量差异(small energetic differences)。要设计一个能够稳定在两种或多种构象状态之间切换的蛋白质,我们需要精确地预测每种状态的能量,并确保目标状态(user-specified folded states)比非目标状态(off-target folded states)或无序状态(disordered states)具有更低的能量,且差异足够小,以便实现动态切换。这在域内构象变化这样精细的尺度上尤为困难。
最后,虽然“黑箱”式的深度学习模型在预测蛋白质结构和设计序列方面展现出惊人的能力,但它们往往缺乏生物物理可解释性(biophysical understanding)。我们知道模型“能行”,却不清楚“为何能行”,这就限制了我们对设计系统进行深入理解和精细调控的能力。
为了克服这些挑战,研究人员提出了一种创新的解决方案:将先进深度学习方法的高性能和速度与分子模拟的可解释性结合起来。他们认为,通过这种结合,不仅能够从头设计可控的域内运动模式(intradomain modes of motion),还能深入理解其背后的原子相互作用网络。这就像是既能造出“变形金刚”,又能完全掌握其内部的齿轮与线路,从而实现对其行为的精准控制。

乐高积木与侦探推理:巧妙的“三步走”战略
这项研究的核心在于其通用的设计方法,该方法利用深度学习来引导多态设计(multistate design)过程中序列空间(sequence space)和结构空间(structure space)的搜索。整个过程可以概括为巧妙的“三步走”战略,每一步都环环相扣,逻辑严谨:
第一步:创世之初:定义“理想形态”
在这一阶段,研究人员首先要确定他们希望设计的蛋白质能够切换的“目标构象状态”。这就像是为“变形金刚”设定了两种明确的“形态”,一种是绑定活性形态(State 1),另一种是绑定失活形态(State 2)。
我们以一个具体的例子来深入理解:
研究人员选择了一种工程化的钙离子结合蛋白(engineered Ca2+ binding protein)作为他们的起始结合活性态(State 1)。这个蛋白质来源于肌钙蛋白C(troponin C)的N端结构域(N-terminal domain),其天然野生型(wild-type)包含两个EF手型基序(EF hand motifs),都能在低微摩尔(low micromolar)浓度下结合钙离子(Ca2+)。但为了简化研究,他们使用了一个变体,即在EF手型基序I中引入了E41A点突变(point mutation),这使得位点I对钙离子的亲和力(affinity)减弱至毫摩尔(millimolar)范围,而位点II仍然保持中等微摩尔亲和力。更重要的是,这个E41A突变体在结合钙离子时不会发生构象变化,这为他们提供了一个稳定的结合活性态。
接着,他们需要从头生成(de novo generate)另一个全新的、结合失活的“形态”(State 2)。他们利用了一种名为“循环-螺旋-循环单元组合采样算法”(LUCS algorithm)的方法,对蛋白质中包含环III、螺旋C和钙离子结合位点II的连续区域——他们称之为“重塑区域”(reshaped region)——进行构象采样。这个过程就像是用“乐高积木”来拼搭一个全新的结构,但又确保它与原始结构在某些方面不同。他们生成了大约1000种不同的构象,平均钙RMSD(Ca root mean square deviation)达到了7.1埃(Å),这与天然信号蛋白中功能性构象变化的尺度相当。
实验验证,确保“形态”真实可控:
为了快速筛选这些从头设计的State 2序列,研究人员将每个设计与C端c-Myc标签融合,并在酵母表面进行展示。酵母表面展示水平通常与蛋白质的稳定性相关,因此可以作为设计可行性(designability)的初步指标。在初步筛选的11个单态设计(single-state designs)中,有10个设计显示出高表面展示水平,表明它们具有良好的稳定性。
研究人员进一步深入表征了设计#6306,因为它在重塑区域具有与State 1截然不同的构象,涉及到重塑螺旋C的旋转和翻译。最关键的是,钙离子结合环被显著重塑,形成了不利于结合的构象。实验结果确实证实,设计#6306在钙离子浓度高达1毫摩尔(1 mM)时,不结合钙离子,这与他们的预期完全一致。
为了从原子层面验证设计#6306的结构,研究人员通过核磁共振(Nuclear Magnetic Resonance, NMR)技术解析了其结构。结果显示,实验解析的结构(以青色表示)与AlphaFold2(AF2)预测的模型(灰色)之间具有非常出色的一致性,钙RMSD(Ca RMSD)为0.98埃(Å)(不包括环区)。这一数据强有力地证明,他们从头设计出的State 2骨架不仅具有可设计性(designable),而且确实不利于配体(ligand)结合,使其成为双态设计中结合失活态的理想选择。

第二步:寻觅“天选之子”:深度学习下的多态设计
有了两种明确定义的构象状态(State 1和State 2),下一步就是设计能够同时兼容这两种构象,并能在它们之间切换的序列。关键在于,这些序列不仅要高度相似,还要能以不同程度占据两种状态,从而实现构象平衡的调控。
传统的做法可能会将所有重塑区域及其相邻残基位置都设置为可设计(designable),但这会导致搜索空间过于庞大。为了更高效地寻找“天选之子”,研究人员运用深度学习的力量,特别是AlphaFold2(AF2)进行结构预测,来缩小可搜索的序列空间,并将采样重点放在决定状态偏好的关键位置。
他们利用AF2进行计算突变扫描(in silico mutational scan),评估了在设计#6306(预测采纳State 2构象)中引入突变后,其预测结构是否仍然保持State 2构象,同时又增加了与State 1序列的相似性。如果预测结构与State 2构象的钙RMSD(Ca RMSD)小于1.5埃(Å),则认为该突变在State 1的“可耐受序列空间”内。通过这个过程,他们识别出了最少残基集(minimal set of residues),这些残基在确定状态偏好方面至关重要。最终,可设计残基的数量从37个减少到25个。
随后,他们使用蛋白质MPNN(ProteinMPNN),一个基于深度学习的序列设计工具,进行多态设计。令人惊奇的是,他们发现了一系列AF2结构预测结果表明,这些设计要么完全处于State 1,要么完全处于State 2,或者处于两者的混合状态,甚至包括结构中间体(structural intermediates)。这些序列与原始State 1序列(1SMG)相比,有18个突变;与高序列相似度的单态State 2设计相比,有15个突变。
最关键的发现是:这些设计彼此之间只在一个残基位置——第89位——上存在差异!而第89位残基位于重塑区域之外,并且与钙离子结合位点相距超过15埃(Å)。这使得研究人员预测,第89位残基将作为一个变构位点(allosteric site),其氨基酸身份(amino acid identity)的变化可以改变重塑区域中各状态的布居(populations of states),包括远端钙离子结合位点构象。具体来说,第89位较小的氢键供体和受体(hydrogen bond donors and acceptors)倾向于State 2,因为它们与环III的骨架形成氢键,使其更靠近中心螺旋D。相反,体积庞大和/或疏水性氨基酸(bulky and/or hydrophobic amino acids)则将环III推向更符合State 1的构象。AF2对第89位远端重塑区域的置信度指标(pLDDT)也因氨基酸身份的不同而显著变化,进一步支持了这一推测。

第三步:“乾坤挪移”:精细调控构象平衡
一旦确定了能够切换的蛋白质序列,下一步就是寻找方法来精细调控它们的构象平衡,就像是调整“变形金刚”的模式切换旋钮。这可以通过两种方式实现:一是通过配体结合(ligand binding),即在构象变化区域内的活性位点结合效应物;二是通过变构扰动(allosteric perturbations),即作用于与活性位点偶联的远端位点。

变构调节:一子落,满盘皆活!
为了验证第89位残基的氨基酸身份是否真的能决定构象平衡,研究人员选择了五种AF2预测行为各异的设计进行实验,包括S89(预测偏好State 2)、N89(混合状态)和I89(预测偏好State 1)。
他们通过二维氢-15N异核单量子相干(2D ¹H,¹⁵N-HSQC)核磁共振光谱对这些设计进行了表征。令人震惊的是,仅仅是一个单点突变,就导致了截然不同的核磁共振谱图:与S89(State 2偏好)相比,I89(State 1偏好)谱图中92个骨架酰胺峰中有67个显示出显著的化学位移变化(AδHn > 0.03 ppm 或 AδN > 0.4 ppm)。这表明这些残基经历了不同的化学环境,与两种状态在快速交换(fast exchange)中的两态平衡模型高度一致。S89和I89的化学位移处于变化范围的两端,而N89则介于两者之间。
更深入的分析显示,化学位移的变化不仅局限于突变位点89附近,而且扩散到重塑区域内的远端残基,包括钙离子结合位点II及其相邻残基,这与重塑区域整体构象的集合平均变化(ensemble-averaged conformation)一致。
为了直接评估设计I89的动态特性,研究人员进一步收集了不同温度下的核磁共振谱图。他们观察到,峰强度(peak intensity)的变化局限于重塑区域及其邻近残基,这与重塑区域内因动态变化引起的化学环境改变一致。在较高温度下(35°C),峰强度更高,表明系统处于快速交换状态;而在较低温度下(5°C),则表现为谱线展宽(line broadening),表明交换速率减慢。
此外,他们还测量了I89设计中15N旋转参考系弛豫率(R1ρ values),发现在重塑区域及其邻近残基中R1ρ值较高。这种行为与微秒到毫秒时间尺度(micro-to-millisecond timescale)的化学交换一致。他们通过化学位移数据估算的交换时间上限为小于10毫秒(ms),进一步的弛豫色散(relaxation dispersion)实验则将上限收紧至42微秒(µs)。这表明,设计的重塑区域在低微秒时间尺度上发生着可控的构象交换,这与天然蛋白质中类似尺度的运动(25)相媲美。

正构调节:配体驱动,构象随行!
除了变构调节,研究人员还希望通过配体结合来调节构象平衡,使蛋白质在结合钙离子时优先稳定在State 1。他们对每个点突变体进行了钙离子添加实验。
结果表明,添加钙离子后,重塑区域及其邻近残基发生了显著的化学位移扰动(AδHn > 0.03 ppm 或 AδN > 0.4 ppm),影响了大约30个额外的峰。由于S89的核磁共振结构与结合失活态(State 2)一致,而I89具有相当大的结合活性态(State 1)布居,因此化学位移变化的趋势与平衡向State 1转移的方向一致。
他们通过监测重塑钙离子位点残基的化学位移变化来测量钙离子结合亲和力。正如预期,随着结合活性态State 1的估计布居增加,钙离子结合亲和力也随之增加。不同设计间的钙离子结合亲和力呈现出约10倍的差异:I89设计的Kd值(解离常数)估计为1.6 ± 0.2 mM(V71)和3.9 ± 0.2 mM(D78);N89设计为20 ± 2 mM(V71)和11.6 ± 0.4 mM(D78);S89设计为22 ± 2 mM(V71)和14.6 ± 0.4 mM(D78)。这些结果证实,即使是与最近钙离子结合残基相距超过15埃的远端89位点上的突变,也能变构调节钙离子结合位点的构象平衡,进而影响其结合亲和力。
最后,他们解析了在钙离子存在下I89的核磁共振结构。结果显示,该全酶结构与他们的计算State 1模型高度吻合,钙RMSD为1.34埃(Å)(不包括环区),且结合位点II的骨架构象与已知的EF手型结合基序一致。尽管全酶I89比无钙离子I89有更多与State 1一致的距离限制,即使在过量钙离子存在下,仍观察到一些与State 2一致的核磁共振距离限制,这表明蛋白质仍存在残余动态性。
综上所述,这些结构和实验结果证实,他们设计的序列家族在溶液中确实采纳了重塑区域的两种目标构象状态,并且这些状态的布居可以通过变构突变和钙离子结合来调节。

揭秘“联动机制”:MD模拟与互信息分析
为了更深入地了解所设计的构象转换背后的原子级相互作用机制,研究人员进行了分子动力学(Molecular Dynamics, MD)模拟。
在无钙离子条件下,I89设计显示出State 1和State 2之间可逆的转换,这与他们的设计预测和实验数据高度一致。对聚合的36微秒(µs)无钙离子I89模拟数据进行马尔可夫状态模型(Markov state model, MSM)拟合,估计总交换时间下限约为3微秒(µs)。结合R1ρ数据得到的42微秒(µs)上限,这表明重塑区域在低微秒时间尺度上发生交换,这与天然蛋白质中类似尺度的运动相当。
与此形成对比,在钙离子存在下模拟I89时,未观察到构象转换,钙离子在模拟过程中一直结合在位点II。这与实验数据一致,钙离子能稳定State 1构象。S89设计在无钙离子条件下,在几微秒的模拟过程中始终保持State 2构象。尽管在钙离子存在下,S89未显示向State 1的转换,但重塑区域的波动性更大,与State 1的RMSD更小。
MD模拟结果有力地支持了设计的两种状态在低微秒时间尺度上的交换,显示钙离子在I89中优先稳定State 1,并与89位点的变构调节一致。
鉴于设计预测、MD模拟和核磁共振数据之间的高度一致性,研究人员进一步探讨MD结果能否解释变构调节的机制,并做出可验证的预测。他们对无钙离子I89 MD轨迹中的侧链扭转动力学(side-chain torsional dynamics)进行了互信息分析(mutual information analysis),发现了一个疏水核心残基网络,它将钙离子结合位点II(残基70-76)的扭转运动与环III(残基50-58)和螺旋D(残基80-94)中的远端残基耦合起来。关键的是,变构残基89直接面向环III。
结合实验结果,MD模拟结果揭示了变构机制:第89位残基的氨基酸身份通过空间位阻(sterics)或氢键相互作用(hydrogen bonding)影响螺旋D与环III之间的相互作用,这些相互作用又通过已识别的相关疏水网络,变构地影响远端钙离子结合位点构象。

预测性验证:预言成真,设计精准!
为了验证这些状态特异性相互作用,研究人员对已识别网络中的残基进行了突变预测,以期优先稳定State 1。他们通过三种方式评估了这些突变体:
Frame2seq评分: Frame2seq是一种结构条件下的掩码语言模型(masked language model),用于预测序列的可能性。研究人员预测,Y64F(酪氨酸到苯丙氨酸)突变对State 2具有破坏性,因为它无法与Y43和E81形成氢键,但在State 1中是中性的,因为苯丙氨酸仍可与Y88形成π-π堆叠。同样,K68E(赖氨酸到谷氨酸)突变对State 2也应具有破坏性,因为它不能与E81形成稳定的静电相互作用,但在State 1中是中性的,因为它暴露在溶剂中。对于这两种突变,Frame2seq预测突变氨基酸相对于原始氨基酸,在State 1中具有更高的可能性,而在State 2中则更低。
AlphaFold2(AF2)预测: AF2预测这些突变体将以比原始I89序列更高的置信度采纳State 1构象。
NMR HSQC光谱: 2D ¹H,¹⁵N-HSQC光谱与预期的向State 1布居转移(shift in population toward state 1)一致。
这些结果证实,新的突变能够成功地进一步调节开关的平衡,证明了设计和预测的精准性。

开启可编程生命系统新纪元
这项研究的成果具有里程碑式的意义。它成功地展示了一种通用的方法,能够从头设计具有两个可指定构象状态的蛋白质,并且这些状态之间的相互转换可以被配体浓度(正构调节)和远端位点突变(变构调节)所调节。
与以往主要基于结构域替换或铰链式运动的从头设计开关不同,这项工作设计的蛋白质能够在不同的原子相互作用网络之间切换。这意味着,以前无法触及的、受天然信号传导(如激酶和GPCRs)启发的新型域内运动模式,现在可以通过从头设计实现,极大地扩展了可访问的功能空间。
这项研究最显著的观察之一是深度学习预测、实验数据和物理模拟之间强大的对应关系。这种高度一致性不仅验证了设计的有效性,还为揭示开关双稳态(bistability)机制提供了可检验的假设,并允许研究人员在原子水平上调控构象平衡。这归因于他们设计方法中的具体特点,特别是通过序列和结构空间搜索,将可设计位置缩小到那些被预测为工程化构象变化的关键决定因素。深度学习驱动的蛋白质序列设计和结构预测的速度和推理能力,使得这种方法最终能够设计出稳定两种结构状态的独特残基网络。这种对设计系统的深入洞察,对于推进变构调节的从头设计至关重要。
深度学习和物理模拟之间的协同作用——在本研究中用于从头设计动态蛋白质——将有助于开发未来的设计方法,从而实现对构象景观(conformational landscapes)和交换时间尺度(timescale of exchange)的预测性控制。尽管当前设计方法尚未明确考虑过渡态(transition state barriers),但新兴方法,如在模拟和/或实验数据上训练模型,有望解决这些问题。
这项工作为从头设计可编程信号系统(programmable signaling systems)奠定了基础,将促进实现更复杂的行为,如从头信号整合(de novo signal integration)或与能量输入耦合的协同运动(concerted motions coupled to energy inputs)。此外,这种方法还可以应用于将非天然运动(non-native motions)工程化到天然蛋白质中,以控制它们的活性。
简而言之,这项研究不仅向我们展示了如何打造具有生命力的“变形金刚”蛋白质,更重要的是,它揭示了我们如何通过深度学习和物理模拟的协同作用,去理解和重新编程生命的“语言”,开启生物设计的新篇章!




参考文献


Guo AB, Akpinaroglu D, Stephens CA, Grabe M, Smith CA, Kelly MJS, Kortemme T. Deep learning-guided design of dynamic proteins. Science. 2025 May 22;388(6749):eadr7094. doi: 10.1126/science.adr7094. Epub 2025 May 22. PMID: 40403060.


声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!




往期热文:


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182519
 
78 次点击