NAR | 广东工业大学曾骥等团队揭示基于机器学习的5′非翻译区对蛋白质表达的影响

iNature

5′非翻译区（5′UTR）在信使RNA（mRNA）中起着至关重要的调控作用，其修饰的5′UTR广泛应用于疫苗生产、基因治疗等领域。然而，手动优化5′UTR可能会遇到难以平衡各种顺式元件效应的问题。因此，人们构建了多个5′UTR文库，并利用机器学习模型来分析和预测翻译效率（TE）和蛋白质表达，从而深入了解关键的调控特征。一方面，这些基于TE和平均核糖体负荷的筛选文库难以准确量化蛋白质表达；另一方面，精确量化5′UTR的方法需要更高的文库成本。

2025年9月9日，广东工业大学曾骥、大连理工大学林佳奇、广东省第二总医院泌尿外科王炳卫和广东工业大学赵淑平共同通讯在Nucleic Acids Research在线发表题为“Machine learning-based analysis of the impact of 5′ untranslated region on protein expression”的研究论文。该研究构建了一个以萤火虫荧光素酶为报告基因的文库，以准确测量蛋白质表达。

此外，作者通过对mRNA序列进行聚类来优化文库构建方法，以减少冗余数据并最小化数据集的大小。研究发现这种通过提高准确性和减少数据集大小的双重策略可有效预测 PC3 细胞系的 5′UTR。

蛋白质合成涉及两个主要步骤：DNA 通过 RNA 聚合酶转录为信使 RNA (mRNA)，然后通过核糖体介导的氨基酸组装将 mRNA 翻译成功能性蛋白质。5′非翻译区 (5′UTR) 是编码序列上游的关键调控元件，通过控制核糖体的募集和起始，在调节翻译效率 (TE) 中起着核心作用。它包含顺式作用元件，例如上游开放阅读框和内部核糖体进入位点，而其二级结构可以增强或抑制核糖体结合，直接影响蛋白质表达水平。在 mRNA 疗法和疫苗中，5′UTR 优化对于最大化蛋白质产量至关重要。例如，COVID-19 mRNA 疫苗（如辉瑞-BioNTech 和 Moderna）中工程化的 5′UTR 显着改善了抗原表达，从而引发强大的免疫反应。同样，在基因治疗中，定制的5′UTR可增强转基因表达和治疗性蛋白质的产量，凸显其在推进基于mRNA的生物医学应用中的关键作用。

5′UTR内顺式元件的功能已被分别表征。然而，这些元件之间意想不到的相互作用可能会降低精心设计的5′UTR的翻译效率(TE)。因此，手动改变5′UTR中的顺式元件可能无法达到预期的效率水平。相反，机器学习方法可以揭示顺式元件之间隐藏的联系，从而有助于精确预测5′UTR的效率。因此，已经构建了多个5′UTR库来训练机器学习模型。然而，这些模型面临着两个相互冲突的挑战。

一方面，训练数据集未能成功建立翻译效率与实际蛋白质表达水平之间的直接联系。目前，平均核糖体负荷 (MRL) 和 TE 是这些数据集中评估 5′UTR 对翻译影响的主要指标。MRL 表示附着在 mRNA 上的平均核糖体数量，而 TE 是通过 RNA 测序确定的核糖体保护的 mRNA 片段与总 mRNA 分子的比例。然而，这些指标的范围有限；它们仅反映蛋白质合成的核糖体结合阶段，而无法捕捉最终的蛋白质输出。此外，高 MRL 会导致 mRNA 稳定性降低，由于半衰期短而导致总蛋白质输出降低。TE 的意义在于它能够揭示特定时刻 mRNA 翻译成蛋白质的效率，但它仅仅是一种瞬时测量，可重复性较低。因此，这两个指标都不能准确地描述真实的蛋白质水平。此外，重组酶介导的高通量方法将 DNA 片段整合到染色体中，使表达的蛋白质同时包含转录和翻译强度。因此，它也不能真正衡量翻译效率。因此，开发一种高通量方法来量化每个 5′UTR 的 TE 至关重要。

另一方面，精确量化 5′UTR 的方法需要成本高得多的文库。例如，对于 mRNA 疫苗，DNA 片段在体外转录，然后将得到的 mRNA 递送到人体内进行体内翻译。然而，一种复制此过程的有效方法需要在单个微管中分别测量每个 5′UTR，从而导致成本显著增加。

在本研究中，作者通过开发计算和实验方法解决了预测 5′UTR 介导的 TE 的难题。为了克服手动 5′UTR 工程的局限性，作者根据 6721 个 5′UTR 序列构建了两个模型：一个结合序列和 RNA 二级结构特征的随机森林 (RF) 模型，以及一个利用序列特征预测 TE 的新型 SeqNet 模型。认识到在大型数据集上训练这些模型的资源密集型特性，作者进一步开发了一种创新的序列聚类策略，该策略显着减少了所需的训练数据集大小，同时保持了预测准确性。最后，使用基于萤火虫荧光素酶表达的小型文库来验证该方法可以比 TE 值更准确地反映 mRNA 治疗中实际的蛋白质表达水平。该方法紧密模拟了 mRNA 疫苗的功能过程，从而能够精确量化蛋白质产量。作者的综合方法的有效性已通过 PC3 细胞系中的概念验证实验得到验证，这证明了作者模型的预测能力和实验系统的可靠性。这种结合先进的机器学习技术与高保真实验验证的策略不仅可以推动 5′UTR 优化领域的发展，还可以提供可适应分子生物学其他领域的框架。

图1研究流程图。（图源自Nucleic Acids Research）

参考消息：

https://academic.oup.com/nar/article/53/17/gkaf861/8249852

—END—

内容为【iNature】公众号原创，

转载请写明来源于【iNature】

微信加群

iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群（16个PI群及64个博士群），同时更具专业专门组建了相关专业群（植物，免疫，细胞，微生物，基因编辑，神经，化学，物理，心血管，肿瘤等群）。温馨提示：进群请备注一下（格式如学校+专业+姓名，如果是PI/教授，请注明是PI/教授，否则就直接默认为在读博士，谢谢）。可以先加小编微信号（love_iNature），或者是长按二维码，添加小编，之后再进相关的群，非诚勿扰。

投稿、合作、转载授权事宜

请联系微信ID：13701829856 或邮箱：iNature2020@163.com

觉得本文好看，请点这里！