GPT-4 加速合成生物学的知识挖掘和机器学习

编译 | 曾全晨
审稿 | 王建民

今天为大家介绍的是来自Garrett W. Roell, Yixin Chen和Yinjie J. Tang团队的一篇论文。从合成生物学期刊文章中挖掘知识以供机器学习（ML）应用是一项耗时的工作。自然语言处理（NLP）工具的发展，比如 GPT-4，可以加速在复杂菌株工程和生物反应器条件下发布的与微生物性能相关的信息的提取。作者提出了一个面向GPT-4 的工作流程，从两种酵母（Yarrowia lipolytica 和 Rhodosporidium toruloides）的 176 篇出版物中提取知识。经人工干预后，该流程获得了总共 2037 个数据实例。结构化的数据集和特征选择使 ML 方法能够以相当高的准确性预测 Yarrowia 的发酵产量。

合成生物学（SynBio）工具可以为生物制造设计合成微生物。为了培养微生物，研究人员依赖试错方法以突破生物系统复杂的特性。细胞性能的模型预测对于减少实验的数量和提高菌株开发的效率至关重要。机器学习（ML）已被应用于预测发酵产量、优化生物过程以及推荐工程方法。ML的缺点在于它需要大量的实验数据进行模型训练。因此，从已发表的期刊文章中挖掘知识可以是训练ML模型的廉价策略。然而，从大量文章中手动提取数据是一项耗时的工作，并容易出现人为错误和质量不一致的问题，因为报道的数据通常缺乏标准化的格式，而且需要大量的工作来解释信息并将其整理成适用于ML的数据。自然语言处理（NLP）是人工智能的一个分支，可以大规模处理文本，使已发表文章的主题组织变得可能。最近在NLP领域的一个关键时刻是发布了GPT-4，利用GPT-4，我们可以快速提取已发表的论文中的相关生物过程特征和结果以扩增数据库。此外，GPT-4可以提供有用的生物制造指南，但其对酵母的产量预测可能会给出不切实际的答案。因此，作者的研究旨在将GPT-4与ML结合，以提高酵母发酵产量的预测能力。

图 1

作者的研究使用了GPT-4来从关于工业酵母Yarrowia lipolytica的文章中提取知识。已在人工监督下将发表的信息转化为数据样本（即实例）。每个实例包括输出（产品产量）和输入（即特征）。特征变量包括生物工艺条件、代谢途径和基因工程方法。所有实例都已上传到一个数据库中，用于训练ML模型。此外，Rhodosporidium toruloides是一种新型酵母，因其高脂肪含量和天然胡萝卜素产量而近年来受到研究关注。然而，有关Rhodosporidium的文献稀缺。在这里，作者展示了迁移学习可以利用来自研究充分的领域（Yarrowia训练的模型）的知识，以理解研究较少的情景并加速学习过程。总之，研究首次将GPT与知识工程和ML集成，用于预测微生物细胞工厂。这些经验将改善人工监督和推动工程实践，促进GPT和ML在合成生物学领域的应用（见图1）。

通过GPT-4从合成生物学论文中提取ML特征和数据集

表 1

ML方法需要大量的实验数据来将ML输入（特征）与输出（产物）相关联。由于生物制造文献提供了大量的菌株构建和生物工艺工程案例研究，因此从已发表的论文构建数据库可能广泛支持ML应用。先前的数据库，如LASER，收集了代谢工程报告，但存储的信息未经组织和转化为ML应用。作者的研究进行了知识挖掘和特征选择，可以过滤掉错误/冗余信息并捕获独立影响生物产物的因素。此外，合成生物学论文描述了生物反应器条件、代谢途径和基因工程方法。手动提取信息非常耗时。在这里，GPT-4被用来克服这一挑战。由于GPT-4的最大上下文窗口包含8,192个标记，因此每篇科学文章的各个部分，包括摘要、材料和方法、结果以及数据表，都被手动分割成文本文件。然后，在每个部分的开头添加了提示（表1），以便GPT-4可以将实验结果和方法总结成可访问的表格。

关于ChatGPT的数据提取质量测试

图 2

从出版物中提取数据而不丢失重要知识是一项具有挑战性的任务。为了测试GPT的适用性，作者于2023年3月15日开始使用GPT-3.5，以从期刊文章中提取Rhodosporidium发酵数据。作者展示了一名博士生使用GPT增强工作流程1周的输出（图2a）。当使用GPT-3.5时，平均每天（8个工作小时）提取了11.7篇论文。在3月15日发布GPT-4后，于3月16日提取了25篇论文。作者测试了GPT-3.5提取的生物制造数据的正确性，使用了10篇Yarrowia论文进行手动检查，发现GPT-3.5提取的产量数据正确率为74%。在用户自行检查和修正的情况下，提取的产量数据正确率约为89%。当应用GPT-4时，提取数据的质量得到了显著提高。例如，GPT-4准确地从10篇Yarrowia论文中获取了发酵产量数据（图2b）。

GPT-4辅助构建Y. lipolytica生物制造数据库

表 2

图 3

Yarrowia lipolytica是用于生物生产的工业重要酵母。作者先前的研究手动从约100篇Yarrowia合成生物学论文中收集了信息，这需要一位经过良好培训的研究生超过400个工作小时。在此研究中，使用了GPT-4工作流程，在40个工作小时内从115篇Yarrowia论文中获得了约1670个额外的数据实例。作者开发了一个特征表格（表2）定义了ML特征和特征选择规则，其次开发了一个分子清单，将某些报告的信息转化为数值或分类特征变量。为了进一步验证GPT-4的适用性，通过计算特征重要性、特征方差和主成分分析（PCA）来比较手动提取的数据与GPT提取的数据。GPT提取的数据的特征重要性分布与手动提取的数据相似（图3a），表明新提取的数据遵循与手动提取的数据类似的模式。有趣的是，GPT数据集中有19个特征的特征方差高于手动提取的数据集（图3b）。PCA显示，当K均值聚类收敛到最佳解后，GPT提取的数据与手动提取的数据具有相似的轮廓分数，但GPT提取的数据的簇之间平均距离较大（图4）。

图 4

利用GPT构建的数据库来预测Y. lipolytica发酵产量

图5

发酵产量确定了生物工艺的经济性。GPT辅助数据库构建可以支持在不同条件下量化预测酵母发酵产量。具体来说，Y. lipolytica发酵实例形成了一个全面的数据库，用于训练ML模型。作者对七种经典ML算法进行了比较测试，并进行了数据缩放（支持向量机（SVM）、高斯过程（GP）、多层感知器（MLP）、随机森林（RF）、XGBoost、K最近邻（KNN）和线性回归）。基于未见过的测试数据和ML预测，线性回归和线性SVM表现不佳，这表明线性关系无法准确表示产量预测。一个完全连接的两层神经网络也没有表现出良好的性能。相反，RF模型在未见过的测试实例上取得了最佳准确性：R2为0.86（图5a）。在此之后，训练/测试数据未经缩放，因此保留了它们的原始物理含义。RF模型在50个随机数据拆分中的测试数据上仍然表现稳健，平均R2为0.80 ± 0.04。RF回归器的测试性能对于几乎所有产品类别都不错：有机酸、脂质、萜类、黄酮类、脂肪酸衍生物、糖醇、糖质和聚酮（图5b−k）。

从Y. lipolytica到R. toruloides的迁移学习

R. toruloides是一种非模型酵母，可以将廉价原料转化为高价值的类胡萝卜素。然而，这种酵母的报道很少。迁移学习可以利用Yarrowia数据集中的知识来揭示潜在的遗传工程结果。例如，作者从60篇文章中提取了366个Rhodosporidium发酵结果，以训练RF模型来预测脂质和生物质产量，但该数据库缺乏遗传工程特征。例如，关于R. toruloides中虾青素的产量的报道主要集中在其天然代谢途径上。因此，从Y. lipolytica的报道中传递知识是必要的，以预测遗传工程如何影响R. toruloides中虾青素的产量，并为未来菌株开发提供指导。在这里，作者采用了两种归纳学习方法：(1)具有预训练编码器-解码器结构的神经网络，用于研究基因表达数量对虾青素合成的影响；(2)一种基于实例的随机森林TL方法，以解决源-目标领域差距。

图 6

首先，使用自编码器中的预训练编码器来将特征数量从29个减少到14个。得到的模型可以预测在富含培养基的摇瓶培养中，经过96小时后R. toruloides虾青素的产量。然而，经过训练的模型的产量预测对遗传修饰特征不敏感。在已报告的实验中，R. toruloides虾青素的产量约为1毫克/升。相比之下，Y. lipolytica和R. toruloides产量的ML数据库中的大多数实例都在克/升级别。虾青素和其他产品（如脂质和生物质训练数据）之间数量级的差异使得低产量产品的预测变得困难。随后进行了RF迁移学习的测试。具体来说，训练实例被标记为Yarrowia或Rhodosporidium（分类输入特征），并为Rhodosporidium数据分配了3倍的权重。从两种物种的数据中训练的模型用于预测R. toruloides虾青素产量。同样，输入对应于在富含培养基的摇瓶中进行96小时发酵。该模型预测，未经基因工程的野生型R. toruloides在工艺优化后可能会产生低于4.2毫克/升的虾青素产量（图6a）。这个结果与最近的一篇发表的论文相当（未用于模型训练），该论文报道了R. toruloides在摇瓶中的虾青素产量为1.3毫克/升。通过成功的基因表达，工程菌株预测可以提高它们的产量（图6b−d）。如果六个关键基因得以优化，一株菌株可能平均产生39.5毫克/升的虾青素（图6d）。此外，分析中观察到的虾青素产量的广泛分布表明，在预测产量时存在相当大的不确定性水平。总之，采用实例迁移方法的RF可以在数据库不完整时提供合理的预测。

结论

作者的工作旨在利用GPT的能力，自动化从现有文献中挖掘知识，以支持ML应用。在这里，GPT-4可以处理大量信息，从而减轻了研究人员在文献分析上需要花费的精力。使用GPT有机会来彻底改革生物制造数据科学，并实施ML/迁移学习，以加速微生物工厂开发的设计-构建-测试-学习过程。

参考资料

Xiao, Z., Li, W., Moon, H., Roell, G. W., Chen, Y., & Tang, Y. J. (2023). Generative artificial intelligence GPT-4 accelerates knowledge mining and machine learning for synthetic biology. ACS SyntheticBiology, https://doi.org/10.1021/acssynbio.3c00310