机器学习在生物酶工业中的应用

机器学习（ML）正迅速改变包括生物催化在内的多个科研领域的发展路径。生物催化是指利用酶及生物系统介导化学反应的过程，在制药与工业应用中具有重要意义。不过目前这一行业仍然存在许多亟需解决的问题。

比如说，自然界中已经存在种类繁多的生物催化剂，现有且特征明确的酶只是冰山一角。可开发空间是很巨大，但数据处理却是个难题。而酶的催化性能对反应环境（尤其是pH值）高度敏感，而工业生产中往往需要酶在非最佳条件下运行。

在这一背景下，引入ML的数据处理功能来解决问题或许是这个行业发展的未来，此前Nature Communications上报道了一篇采访文章，深入探讨了机器学习在生物催化研究中的应用与展望。

传统困境

酶作为天然催化剂，其活性依赖于活性位点氨基酸残基的质子化状态。例如，转氨酶（一类依赖吡哆醛-5'-磷酸辅因子的酶）通常在碱性条件（pH 8.0-9.0）下表现最佳，但工业生产中常需与其他酶（如乳酸脱氢酶，最佳pH 7.5）联用。这种pH不匹配导致整体反应效率下降，甚至迫使企业放弃生物催化路线。

传统解决方法依赖蛋白工程，通过突变活性中心附近的关键残基来调节酶的pH依赖性。例如，科学家曾对一种转氨酶进行26个位点的突变，使其活性提升50万倍。但这种方法实际上很看运气，完全是“盲人摸象”，缺乏对于酶-底物相互作用的全局理解，成本高周期长，实在是吃力不讨好。

ML在生物催化剂开发中的新作用

随着蛋白质序列数据的爆炸式增长（从2018年的1.23亿条增至2023年的24亿条），机器学习在功能注释、多样性筛选和全新酶设计方面展现出巨大潜力。

机器学习能够帮助探索蛋白质适应性空间，预测具有多个突变的变体功能，从而减少实验中的试错成本。在采访中，瑞士苏黎世应用科学大学的 Rebecca Buller教授表示，她的团队通过机器学习辅助优化了卤化酶和酮还原酶，用于药物前体的合成。

捷克的马萨里克大学的Stanislav Mazurenko博士更专注于数据建模与分析。他在酶动力学和热力学研究中意识到传统建模方法的局限性，因而转向机器学习，尝试从复杂生物数据中提取规律。近年来，他的团队利用蛋白质语言模型生成新型生物催化剂，预测突变对酶性质的影响，并探索量子计算方法在生物催化中的应用。他强调，机器学习在解决未注释序列问题和指导蛋白质工程方面具有独特优势。通过语言模型和特定任务预测器，研究人员能够探索整个蛋白质序列空间，而不仅限于局部热点。此外，机器学习正在模糊自然酶优化与从头设计之间的界限，为生物催化剂开发提供全新路径。

加州大学圣塔芭芭拉分校的Yang Yang副教授的研究则聚焦于设计自然界中未知的酶活性，特别是基于过渡金属和自由基反应的酶催化系统。他致力于开发通用的机器学习指导方法，以加速生物催化剂的优化与设计。他认为，蛋白质大型语言模型能够识别适应性空间中的隐藏规律，生成新型酶序列，并有望实现全新的酶功能设计。

目前ML结合酶催化的挑战和解决方案

在三人的访谈中，数据稀缺性是个常被提到的重要问题。目前99.7%的酶功能未知，需构建更大规模的酶-底物反应数据库。

Buller教授指出，许多实验数据集通常规模小且不一致，限制了模型的学习能力。她认为，呼吁建立类似蛋白质数据库（PDB）的高质量生物数据资源，并确保实验条件等元数据以机Mazurenko博士推荐遵循FAIR原则（可发现、可访问、可互操作、可重用）存储数据，并采用EnzymeML等标准化数据交换格式。他还建议实验人员学习“整洁数据”方法，以提升数据处理的效率与一致性。

Yang Yang副教授认为生物催化领域缺乏大规模、高质量的数据集，特别是具有合成化学背景的数据，目前许多定向进化研究仍仅报告有益突变，而机器学习需要全面数据（包括有害突变）。他呼吁社区共享更多公开数据集，并加强不确定性表征与统计分析。

而关于模型可解释性上来看，开发一个可用于解释物理意义的算法也是其中关键。酶功能受多种因素影响，而实验数据往往无法完全捕捉这些变量。Mazurenko博士建议通过系统化数据收集和多任务学习方法提升模型鲁棒性。

而ML的最终目的是做到多学科跨尺度的整合，这一点是未来景观的最终构想。需将量子化学计算、分子动力学模拟与机器学习结合，实现从原子到反应器的全链条优化。

想要解决上述这些问题还需打好基础，三人都一致认为跨学科合作是推动机器学习在生物催化中应用的核心。

这离不开资助人才，培训人才，人才合作。计算专家应了解蛋白质科学的基本知识，而实验人员需掌握数据管理和机器学习的基本原理。只有这样机器学习专家与生物催化研究人员才能够更好地协同工作。

总结

总的来说，这篇采访让人看到了机器学习在生物催化领域的广阔前景，同时也认识到数据、合作与标准化仍是推动其发展的关键。随着跨学科合作的深化与技术工具的不断进步，机器学习有望在生物催化研究中发挥越来越重要的作用。

参考来源：

Machine learning applied to biocatalysis research. Nat Commun 16, 8771 (2025). https://doi.org/10.1038/s41467-025-64510-y